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PREFACIO A 

SEXTA EDIÇÃO 

/ 


^íesta edição atendemos à solicitação de leitores que sugeriram modifica¬ 
ções em alguns tópicos considerados difíceis. Por exemplo, o tópico sobre quantis 
empíricos agora traz o cálculo utilizando o histograma, deixando a definição mais 
geral para a seção de Problemas e Complementos. 

Inúmeras correções foram feitas na edição anterior, à medida que as sucessivas 
tiragens foram editadas. Nesta sexta edição outros erros foram corrigidos, mas sabe¬ 
mos que diversos persistirão! Agradecemos aos diversos leitores que nos enviaram 
correções e sugestões. 

Acrescentamos problemas a diversas seções do livro e substituímos o conjunto 
de dados sobre o Brasil (CD-Brasil) com informações atualizadas da Contagem da 
População 2007 feita pelo IBGE. Os dados também estão disponíveis na página 
http://www.ime.usp.br/~pam. 

Os leitores que desejarem contatar os autores poderão usar os endereços ele¬ 
trônicos: morettin@editorasaraiva.com.br e bussab@editorasaraiva.com.br. 


Os Autores 




PREFACIO A 
QUINTA EDIÇÃO 


E sta edição é uma revisão substancial da edição anterior deste livro. Cinco novos 
capítulos foram adicionados, e os demais foram revisados e atualizados. 

Cremos que este texto, com a escolha adequada dos tópicos, possa ser utilizado por 
alunos de diversas áreas do conhecimento. O Site do Professor, disponível na Internet 
(http://www.saraivauni.com.br), fornece uma discussão mais longa sobre roteiros apro¬ 
priados para cursos de diferentes níveis. 

Com essa filosofia em mente, procuramos incluir no texto uma quantidade de 
informação substancial em cada capítulo. Obviamente caberá ao professor escolher 
o material apropriado para cada curso desenvolvido. 

0 livro é dividido em três partes. A primeira trata da análise de dados unidimensionais 
e bidimensionais, com atenção especial a métodos gráficos. Pensamos que a leitura dessa 
parte é essencial para o bom entendimento das demais. Recomendamos que o aluno tra¬ 
balhe com dados reais, embora isso não seja uma necessidade essencial, pois normalmen¬ 
te um primeiro curso de estatística é dado no início do programa do aluno, que não possui 
ainda um conhecimento sólido dos problemas de sua área. A segunda parte trata dos 
conceitos básicos de probabilidades e variáveis aleatórias. Finalmente, na terceira parte, 
estudamos os tópicos principais da inferência estatística, além de alguns temas especiais, 
como regressão linear simples. U m capítulo sobre noções de simulação foi adicionado, 
pois tais noções são hoje fundamentais em muitas áreas. 

0 uso de algum pacote computacional é fortemente recomendado para a prática dos 
conceitos desenvolvidos. A presentamos exemplos de aplicações utilizando alguns desses 
pacotes: M initab, Excel eSPIus. M as, evidentemente, outros pacotes poderão ser usados. 

No final do livro, apresentamos vários conjuntos de dados que poderão ser utiliza¬ 
dos pelos alunos. Esses dados também estão disponíveis nas seguintes páginas da I nternet: 

http://www.ime.usp.br/~pam 

http://www.saraivauni.com.br 

F inal mente, agradecemos a todos aqueles que enviarem sugestões e comentários com 
a finalidade de melhorar a presente edição. Para tanto, além do correio normal, os leitores 
poderão usar os endereços eletrônicos dos autores: morettin@editorasaraiva.com.br e 
bussab@editorasaraiva.com.br. 


OsAutores 
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Capítulo 1 


Preliminares 


1.1 Introdução 

Em alguma fase de seu trabalho, o pesquisador depara-se com o problema de anali¬ 
sar e entender um conjunto de dados relevante ao seu particular objeto de estudos. Ele 
necessitará trabalhar os dados para transformá-los em informações, para compará-los 
com outros resultados, ou ainda para julgar sua adequação a alguma teoria. 

De modo bem geral, podemos dizer que a essência da Ciência é a observação e que seu 
objetivo básico é a inferência, que pode ser dedutiva (na qual se argumenta das premissas às 
conclusões) ou indutiva (por meio da qual se vai do específico ao geral). _ 

A inferência estatística é uma das partes da Estatística. Esta é a parte da metodologia da 
Ciência que tem por objetivo a coleta, redução, análise e modelagem dos dados, a partir do 
que, finalmente, faz-se a inferência para uma população da qual os dados (a amostra) foram 
obtidos. Um aspecto importante da modelagem dos dados é fazer previsões, a partir das 
quais se podem tomar decisões. _ 

Na primeira parte deste livro estaremos interessados na redução, análise e interpretação 
dos dados sob consideração, adotando um enfoque que chamaremos de análise 
exploratória de dados (AED). Nessa abordagem tentaremos obter dos dados a maior 
quantidade possível de informação, que indique modelos plausíveis a serem utilizados 
numa fase posterior, a análise confirmatória de dados (ou inferência estatística). 

Tradicionalmente, uma análise descritiva de dados limita-se a calcular algumas 
medidas de posição e variabilidade, como a média e variância, por exemplo. Contrária 
a essa tendência, uma corrente mais moderna, liderada por Tukey (1977), utiliza prin¬ 
cipalmente técnicas gráficas, em oposição a resumos numéricos. Isso não significa 
que sumários não devam ser obtidos, mas uma análise exploratória de dados não deve 
se limitar a calcular tais medidas. 

1.2 Modelos 

Fundamentalmente, quando se procede a uma análise de dados, busca-se alguma 
forma de regularidade ou padrão ou, ainda, modelo, presente nas observações. 
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CAPITULO I — PRELIMINARES 


Exemplo 1.1. Imagine que estejamos estudando a relação entre rendimentos e gastos 
de consumo de um conjunto de indivíduos. Podemos obter um gráfico como o da 
Figura 1.1. O que se espera, intuitivamente, é que os gastos de um indivíduo estejam 
diretamente relacionados com os seus rendimentos, de modo que é razoável supor 
uma "relação linear" entre essas duas quantidades. Os pontos da Figura 1.1 não estão 
todos, evidentemente, sobre uma reta; essa seria o nosso padrão ou modelo. A diferen¬ 
ça entre os dados e o modelo constitui os resíduos. 


Figura 1.1 Relação entre consumo e rendimento. 



Podemos, então, escrever de modo esquemático: 

Dados = Modelo + Resíduos 


ou, ainda, 


D = M + R. (1.1) 

A parte M é também chamada parte suave (ou regular ou, ainda, previsível) dos 
dados, enquanto Ré a parte aleatória. A parte R é tão importante quanto M, e a análise 
dos resíduos constitui uma parte fundamental de todo trabalho estatístico. Basicamen¬ 
te, são os resíduos que nos dizem se o modelo é adequado ou não para representar os 
dados. De modo coloquial, o que se deseja é que a parte R não contenha nenhuma 
"suavidade", caso contrário mais "suavização" é necessária. 

Uma análise exploratória de dados busca, essencialmente, fornecer informações 
para estabelecer (1.1). 

1.3 Técnicas Computacionais 

O desenvolvimento rápido e constante na área de computação foi acompanhado pela 
introdução de novas técnicas de análise de dados, notadamente de métodos gráficos e de 
métodos chamados de computação intensiva (como o método bootstrap, que será tratado 
brevemente neste livro). 












1.4 MÉTODOS GRÁFICOS 
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Para a implementação dessas técnicas, foram desenvolvidos pacotes estatísticos, atual¬ 
mente usados em larga escala tanto no meio acadêmico como em indústrias, bancos, órgãos 
de governo etc. Esses pacotes podem ser genéricos ou específicos. Os pacotes genéricos 
(como o Minitab, Splus, SPSS, SAS etc.) são adequados para realizar uma gama variada 
de análises estatísticas. Os pacotes específicos são planejados para realizar análises particu¬ 
lares de uma determinada área. 

Por outro lado, os pacotes podem exigir maior ou menor experiência computacional 
dos usuários. Alguns operam com menus, e seu uso é mais simples. Outros requerem 
maior familiaridade com o computador e são baseados em linguagens próprias. 

Do ponto de vista de sistema operacional, a maioria dos pacotes é programada para 
uso em microcomputadores que operam com o sistema Windows. Todavia, um número 
razoável de pacotes já tem versões para o sistema Linux. 

Em alguns exemplos deste livro usaremos alguns pacotes e, em cada caso, explicitaremos 
qual está sendo usado. Não queremos fazer recomendações sobre nenhum pacote em parti¬ 
cular, porque cremos que o leitor utilizará aquele com o qual estiver mais acostumado, ou 
aquele(s) que estiver(em) à sua disposição. 

Listamos, na Tabela 1.1, alguns pacotes genéricos utilizados na área de Estatística. 
Salientamos, também, que existem planilhas à venda no mercado que possuem op¬ 
ções para certas técnicas estatísticas. Dentre estas, mencionamos o Excel e o Lotus. 


Tabela 1.1: Alguns pacotes estatísticos genéricos. 


Pacote 

Ambiente 

Fabricante 

MINITAB 

WIN 

Minitab, Inc., USA 

SAS 

WIN 

SAS Institute, Inc., USA 

SPLUS 

WIN, LINUX 

Insightfull Inc. 

SPSS 

WIN 

SPSS, Inc., USA 

STATGRAPHICS 

WIN 

Stat. Graphics, Inc., USA 


Além dos pacotes estatísticos, há outros pacotes de grande utilidade para realizar tarefas 
matemáticas. Dentre estes, mencionamos o Mathematica, o Maple, o Gauss e o Mat Lab. 

1.4 Métodos Gráficos 

Como dissemos na introdução, os métodos gráficos têm encontrado um uso cada 
vez maior devido ao seu forte apelo visual. Normalmente, é mais fácil para qualquer 
pessoa entender a mensagem de um gráfico do que aquela embutida em tabelas ou 
sumários numéricos. 

Os gráficos são utilizados para diversos fins (Chambers et a/., 1983): 

(a) buscar padrões e relações; 

(b) confirmar (ou não) certas expectativas que se tinha sobre os dados; 








4 


CAPITULO 1 — PRELIMINARES 


(c) descobrir novos fenômenos; 

(d) confirmar (ou não) suposições feitas sobre os procedimentos estatísticos usados; e 

(e) apresentar resultados de modo mais rápido e fácil. 

Podemos usar métodos gráficos para plotar os dados originais ou outros dados deriva¬ 
dos deles. Por exemplo, a investigação da relação entre as variáveis da Figura 1.1 pode ser 
feita por meio daquele diagrama de dispersão. M as podemos também "ajustar" uma reta aos 
dados, calcular o desvio (resíduo) para cada observação e fazer um novo gráfico, de consu¬ 
mo contra resíduos, para avaliar a qualidade do ajuste. 

Com o progresso recente da computação gráfica e a existência de hardware e 
software adequados, a utilização de métodos gráficos torna-se rotineira na análise 
de dados. Contudo, muitos gráficos podem ser feitos sem o recurso de programas de 
computador. 

Neste texto introduziremos gráficos para a visualização e resumo de dados, no 
caso de uma ou duas variáveis, principal mente. Noções para o caso de três ou mais 
variáveis serão rapidamente abordadas. Gráficos com o propósito de comparar duas 
distribuições também serão tratados. 

1.5 Conjuntos de Dados 

No final do livro aparecem alguns conjuntos de dados que serão utilizados nos exemplos 
ou nos exercícios propostos. Aconselhamos os leitores a reproduzir os exemplos, usan¬ 
do esses dados, bem como resolver os problemas, pois somente a efetiva manipulação de 
dados pode levar a um bom entendimento das técnicas apresentadas. 

Os conjuntos de dados apresentados provêm de diferentes fontes, que são mencio¬ 
nadas em cada conjunto e depois explicitadas nas referências. 

Os leitores, é claro, poderão usar as técnicas apresentadas em seus próprios con¬ 
juntos de dados. 

Como salientamos na seção 1.3, usaremos alguns programas computacionais dis¬ 
poníveis para análises estatísticas. Decidimos pela utilização de dois pacotes, o SPIus 
e o M initab, e de uma planilha, o Excel. Embora o último não possa ser considerado 
um aplicativo estatístico, sua grande difusão entre os usuários de computadores pessoais 
motivou nossa escolha. 

Alguns conjuntos de dados são parte de conjuntos maiores. Todos esses dados 
podem ser obtidos no endereço: 

http://www.editorasaraiva.com.br/uni 

Usaremos um nome curto para identificar cada conjunto de dados. Por exemplo, o 
Conjunto de Dados 1 será designado simplesmente por CD-Brasil, o Conjunto de Da¬ 
dos 4, por CD-Poluição etc. 



1.6 PLANO DO LIVRO 


5 


1.6 Plano do Livro 

Na primeira parte do livro trataremos, nos Capítulos 2 a 4, de técnicas gráficas e 
numéricas que nos permitirão fazer uma primeira análise dos dados disponíveis. No 
Capítulo 2 estudaremos como resumir os dados por meio de distribuições de freqüên- 
cias e como representá-los graficamente por meio de gráficos em barras, histogramas 
e ramo-e-folhas. No Capítulo 3 veremos as principais medidas numéricas resumidoras 
de um conjunto de dados: medidas de posição (ou localização) e medidas de dispersão 
(ou de variabilidade). A partir dessas medidas poderemos construir gráficos importantes, 
como o gráfico de quantis e o desenho esquemático (ou box plot). No Capítulo 4 
trataremos do caso em que temos duas variáveis. Estaremos interessados em verificar 
se existe alguma associação entre duas variáveis e como medi-la. O caso de três variá¬ 
veis será considerado brevemente. 

Na segunda parte introduzimos os conceitos básicos sobre probabilidades e variáveis 
aleatórias. A idéia é que a primeira parte sirva de motivação para construir os modelos 
probabilísticos da segunda parte. No Capítulo 5 tratamos da noção de probabilidade, suas 
propriedades, probabilidade condicional e independência. Também consideramos o teorema 
de Bayes e destacamos sua importância em problemas de inferência. As variáveis aleatórias 
discretas são estudadas no Capítulo 6 e as contínuas, no Capítulo 7. Em particular, são intro¬ 
duzidos os principais modelos para variáveis aleatórias. O caso de duas variáveis aleatórias é 
considerado no Capítulo 8. 

No Capítulo 9 introduzimos noções básicas de simulação. Esse assunto é muito impor¬ 
tante, notadamente quando se quer avaliar algum modelo construído para uma situação real. 

A terceira parte trata da inferência estatística. Nesta parte todos os conceitos apreen¬ 
didos nas duas partes anteriores são imprescindíveis. Os dois grandes problemas de 
inferência, estimação e teste de hipóteses são estudados nos Capítulos 11 e 12 respectiva¬ 
mente, após serem introduzidas no Capítulo 10 as noções básicas de amostragem e distri¬ 
buições amostrais. O caso de duas populações é considerado no Capítulo 13 e de várias 
populações no Capítulo 15. Basicamente, são desenvolvidos testes para médias, propor¬ 
ções e variâncias. O Capítulo 14 trata dos chamados testes do qui-quadrado para dados 
que aparecem sob a forma de tabelas de contingência. Finalmente, no Capítulo 16 estuda¬ 
mos com algum detalhe o modelo de regressão linear simples. 

Em cada capítulo há, sempre que possível, uma seção com exemplos computacionais. 
Isso significa que algum conjunto de dados é analisado utilizando-se um ou alguns dos 
programas mencionados acima. Em geral, são problemas um pouco mais difíceis do que 
aqueles exemplificados nas demais seções ou, então, têm o caráter de ilustrar o uso de tais 
pacotes para simulações, por exemplo. Recomendamos que o leitor tente reproduzir esses 
exemplos para adquirir experiência na manipulação de dados e procura de eventuais mode¬ 
los que possam representá-los. 
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Capítulo 2 


Resumo de Dados 


2.1 Tipos de Variáveis 

Para ilustrar o que segue, consideremos o seguinte exemplo. 

Exemplo 2.1, Um pesquisador está interessado em fazer um levantamento sobre alguns 
aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia M B. 
Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 2.1. 

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado 
um (ou mais de um) resultado correspondendo à realização de uma característica (ou 
características). No exemplo em questão, considerando-se a característica (variável) 
estado civil, para cada empregado pode-se associar uma das realizações, solteiro ou 
casado (note que poderia haver outras possibilidades, como separado, divorciado, 
mas somente as duas mencionadas foram consideradas no estudo). Podemos atribuir 
uma letra, digamos X, para representar tal variável. Observamos que o pesquisador 
colheu informações sobre seis variáveis: 


Variável 

Representação 

Estado civil 

X 

Grau de instrução 

Y 

Número de filhos 

Z 

Salário 

S 

Idade 

U 

Região de procedência 

V 

Algumas variáveis, como sexo, educação, estado civil, apresentam como possíveis rea¬ 
lizações uma qualidade (ou atributo) do indivíduo pesquisado, ao passo que outras, como 
número de filhos, salário, idade, apresentam como possíveis realizações números resultan¬ 
tes de uma contagem ou mensuração. As variáveis do primeiro tipo são chamadas qualitati- 

vas, e as do segundo tipo, quantitativas. 
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Dentre as variáveis qualitativas, ainda podemos fazer uma distinção entre dois 
tipos: variável qualitativa nominal, para a qual não existe nenhuma ordenação nas 
possíveis realizações, e variável qualitativa ordinal, para a qual existe uma ordem 
nos seus resultados. A região de procedência, do Exemplo 2.1, é um caso de variável 
nominal, enquanto grau de instrução é um Exemplo de variável ordinal, pois ensinos 
fundamental, médio e superior correspondem a uma ordenação baseada no número de 
anos de escolaridade completos. A variável qualitativa classe social, com as possíveis 
realizações alta, média e baixa, é outro exemplo de variável ordinal. 

De modo análogo, as variáveis quantitativas podem sofrer uma classificação dicotômi¬ 
ca: (a) variáveis quantitativas discretas, cujos possíveis valores formam um conjunto finito 
ou enumerável de números, e que resultam, freqüentemente, de uma contagem, como por 
exemplo número de filhos (0, 1, 2, ...); (b) variáveis quantitativas contínuas, cujos possíveis 
valores pertencem a um intervalo de números reais e que resultam de uma mensuração, 
como por exemplo estatura e peso (melhor seria dizer massa) de um indivíduo. 

A Figura 2.1 esquematiza as classificações feitas acima. 


Figura 2.1 Classificação de uma variável. 



Para cada tipo de variável existem técnicas apropriadas para resumir as informações, 
donde a vantagem de usar uma tipologia de identificação como a da Figura 2.1. Entre¬ 
tanto, verificaremos que técnicas usadas num caso podem ser adaptadas para outros. 

Para finalizar, cabe uma observação sobre variáveis qualitativas. Em algumas situa¬ 
ções podem-se atribuir valores numéricos às várias qualidades ou atributos (ou, ain¬ 
da, classes) de uma variável qualitativa e depois proceder-se à análise como se esta 
fosse quantitativa, desde que o procedimento seja passível de interpretação. 

Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a 
chamada variável dicotômica. Para essa variável só podem ocorrer duas realizações, 
usualmente chamadas sucesso e fracasso. A variável estado civil no exemplo acima 
estaria nessa situação. Esse tipo de variável aparecerá mais vezes nos próximos capítulos. 
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Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso 
como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 
empregados da seção de orçamentos da Companhia MB. 


N- 

Estado 

civil 

Grau de 
instrução 

N e de 
filhos 

Salário 
(x sal. mín.) 

Idade 

Região de 
procedência 

anos 

meses 

1 

solteiro 

ensino fundamental 

— 

4,00 

26 

03 

interior 

2 

casado 

ensino fundamental 

1 

4,56 

32 

10 

capital 

3 

casado 

ensino fundamental 

2 

5,25 

36 

05 

capital 

4 

solteiro 

ensino médio 

— 

5,73 

20 

10 

outra 

5 

solteiro 

ensino fundamental 

— 

6,26 

40 

07 

outra 

6 

casado 

ensino fundamental 

0 

6,66 

28 

00 

interior 

7 

solteiro 

ensino fundamental 

— 

6,86 

41 

00 

interior 

8 

solteiro 

ensino fundamental 

— 

7,39 

43 

04 

capital 

9 

casado 

ensino médio 

1 

7,59 

34 

10 

capital 

10 

solteiro 

ensino médio 

— 

7,44 

23 

06 

outra 

11 

casado 

ensino médio 

2 

8,12 

33 

06 

interior 

12 

solteiro 

ensino fundamental 

— 

8,46 

27 

11 

capital 

13 

solteiro 

ensino médio 

— 

8,74 

37 

05 

outra 

14 

casado 

ensino fundamental 

3 

8,95 

44 

02 

outra 

15 

casado 

ensino médio 

0 

9,13 

30 

05 

interior 

16 

solteiro 

ensino médio 

— 

9,35 

38 

08 

outra 

17 

casado 

ensino médio 

1 

9,77 

31 

07 

capital 

18 

casado 

ensino fundamental 

2 

9,80 

39 

07 

outra 

19 

solteiro 

superior 

- 

10,53 

25 

08 

interior 

20 

solteiro 

ensino médio 

— 

10,76 

37 

04 

interior 

21 

casado 

ensino médio 

1 

11,06 

30 

09 

outra 

22 

solteiro 

ensino médio 

— 

11,59 

34 

02 

capital 

23 

solteiro 

ensino fundamental 

— 

12,00 

41 

00 

outra 

24 

casado 

superior 

0 

12,79 

26 

01 

outra 

25 

casado 

ensino médio 

2 

13,23 

32 

05 

interior 

26 

casado 

ensino médio 

2 

13,60 

35 

00 

outra 

27 

solteiro 

ensino fundamental 

— 

13,85 

46 

07 

outra 

28 

casado 

ensino médio 

0 

14,69 

29 

08 

interior 

29 

casado 

ensino médio 

5 

14,71 

40 

06 

interior 

30 

casado 

ensino médio 

2 

15,99 

35 

10 

capital 

31 

solteiro 

superior 

- 

16,22 

31 

05 

outra 

32 

casado 

ensino médio 

1 

16,61 

36 

04 

interior 

33 

casado 

superior 

3 

17,26 

43 

07 

capital 

34 

solteiro 

superior 

— 

18,75 

33 

07 

capital 

35 

casado 

ensino médio 

2 

19,40 

48 

11 

capital 

36 

casado 

superior 

3 

23,30 

42 

02 

interior 


Fonte: Dados hipotéticos. 


2.2 Distribuições de Freqüências 

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o compor¬ 
tamento dessa variável, analisando a ocorrência de suas possíveis realizações. Nesta seção 
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veremos uma maneira de se dispor um conjunto de realizações, para se ter uma idéia global 
sobre elas, ou seja, de sua distribuição. 

Exemplo 2.2, A Tabela 2.2 apresenta a distribuição de frequências da variável grau de 
instrução, usando os dados da Tabela 2.1. 


Tabela 2.2: Freqüências e porcentagens dos 36 emprega¬ 
dos da seção de orçamentos da Companhia 
MB segundo o grau de instrução. 


Grau de 
instrução 

Freqüência 

n i 

Proporção 

f 

Porcentaqem 

100/;. 

Fundamental 

12 

0,3333 

33,33 

Médio 

18 

0,5000 

50,00 

Superior 

6 

0,1667 

16,67 

Total 

36 

1,0000 

100,00 


Fonte: Tobela 2.1 


Observando os resultados da segunda coluna, vê-se que dos 36 empregados da com¬ 
panhia, 12 têm o ensino fundamental, 18 o ensino médio e 6 possuem curso superior. 

Uma medida bastante útil na interpretação de tabelas de freqüências é a proporção de 
cada realização em relação ao total. Assim, 6/36 = 0,1667 dos empregados da companhia 
MB (seção de orçamentos) têm instrução superior. Na última coluna da Tabela 2.2 são 
apresentadas as porcentagens para cada realização da variável grau de instrução. Usaremos 
a notação n para indicar a freqüência (absoluta) de cada classe, ou categoria, da variável, e a 
notação f. = n/n para indicar a proporção (ou freqüência relativa ) de cada classe, sendo n 
o número total de observações. As proporções são muito úteis quando se quer comparar 
resultados de duas pesquisas distintas. Por exemplo, suponhamos que se queira comparar a 
variável grau de instrução para empregados da seção de orçamentos com a mesma variável 
para todos os empregados da Companhia MB. Digamos que a empresa tenha 2.000 empre¬ 
gados e que a distribuição de freqüências seja a da Tabela 2.3. 


Tabela 2.3: Freqüências e porcentagens dos 2.000 
empregados da Companhia MB, segundo o 
grau de instrução. 


Grau de instrução 

Freqüência 

n 

l 

Porcentaqem 

100 f 

Fundamental 

650 

32,50 

Médio 

1.020 

51,00 

Superior 

330 

16,50 

Total 

2.000 

100,00 


Fonte: Dados hipotéticos. 
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Não podemos comparar diretamente as colunas das freqüências das Tabelas 2.2 e 2.3, 
pois os totais de empregados são diferentes nos dois casos. M as as colunas das porcenta¬ 
gens são comparáveis, pois reduzimos as freqüências a um mesmo total (no caso 100). 

A construção de tabelas de freqüências para variáveis contínuas necessita de certo 
cuidado. Por exemplo, a construção da tabela de freqüências para a variável salário, 
usando o mesmo procedimento acima, não resumirá as 36 observações num grupo 
menor, pois não existem observações iguais. A solução empregada é agrupar os ciados 
por faixas de salário. 

Exemplo 2.3. A Tabela 2.4 dá a distribuição de freqüências dos salários dos 36 empregados 
da seção de orçamentos da Companhia M B por faixa de salários. 


Tabela 2.4: Freqüências e porcentagens dos 36 empre¬ 
gados da seção de orçamentos da Compa¬ 
nhia MB por faixa de salário. 


Classe de salários 

Freqüência 

n ; 

Porcentaqem 

lOOf, 

4,00 h- 8,00 

10 

27,78 

8,001- 12,00 

12 

33,33 

12,001- 16,00 

8 

22,22 

16,001-20,00 

5 

13,89 

20,001-24,00 

1 

2,78 

Total 

36 

100,00 


Fonte: Tabela 2.1. 


Procedendo-se desse modo, ao resumir os dados referentes a uma variável contínua, 
perde-se alguma informação. Por exemplo, não sabemos quais são os oito salários da 
classe de 12 a 16, a não ser que investiguemos a tabela original (Tabela 2.1). Sem 
perda de muita precisão, poderíamos supor que todos os oito salários daquela classe 
fossem iguais ao ponto médio da referida classe, isto é, 14 (o leitor pode verificar qual 
o erro cometido, comparando-os com os dados originais da Tabela 2.1). Voltaremos a 
este assunto no Capítulo 3. Note que estamos usando a notação a \- b para o intervalo 
de números contendo o extremo a mas não contendo o extremo b. Podemos também 
usar a notação [a, b) para designar o mesmo intervalo a I— ò. 

A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é 
que lhe indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, 
deve-se observar que, com um pequeno número de classes, perde-se informação, e com 
um número grande de classes, o objetivo de resumir os dados fica prejudicado. Estes dois 
extremos têm a ver, também, com o grau de suavidade da representação gráfica dos dados, 
a ser tratada a seguir, baseada nestas tabelas. Normal mente, sugere-se o uso de 5 a 15 
classes com a mesma amplitude. O caso de classes com amplitudes diferentes é tratado no 
Problema 10. 
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1. Escalas de medidas. A seguir descrevemos outros possíveis critérios para classificar variá¬ 
veis, em função da escala adotada. Observe a similaridade com a classificação apresen¬ 
tada anteriormente. Nossas observações são resultados de medidas feitas sobre os elementos 
de uma população. Existem quatro escalas de medidas que podem ser consideradas: 

Escala nominal. Nesta escala somente podemos afirmar que uma medida é diferente ou 
não de outra, e ela é usada para categorizar indivíduos de uma população. Um exemplo é 
o sexo de um indivíduo. Para cada categoria associamos um numeral diferente (letra ou 
número). Por exemplo, no caso de sexo: podemos associar as letras M (masculino) e F 
(feminino) ou 1 (masculino) e 2 (feminino). Não podemos realizar operações aritméticas 
aqui e uma medida de posição apropriada é a moda. (As medidas citadas nesse problema, 
como a média, mediana e moda, são definidas no Capítulo 3.) 

Escala ordinal. Aqui podemos dizer que uma medida é diferente e maior do que outra. 
Temos a situação anterior, mas as categorias são ordenadas, e a ordem dos numerais 
associados ordena as categorias. Por exemplo, a classe socioeconômica de um indivíduo 
pode ser baixa (l ouX), média (2 ou Y) e alta (3 OüZ). Transformações que preservam a 
ordem não alteram a estrutura de uma escala ordinal. No exemplo acima, podemos 
representar as categorias por 1,10 e 100 ou A, L e Z. Medidas de posição apropriadas 
são a mediana e a moda. 

Escala intervalar. Nesta escala podemos afirmar que uma medida é igual ou diferente, 
maior e quanto maior do que outra. Podemos quantificar a diferença entre as categorias 
da escala ordinal. Necessitamos de uma origem arbitrária e de uma unidade de medida. 
Por exemplo, considere a temperatura de um indivíduo, na escala Fahrenheit. A origem é 
0 o F e a unidade é I o F . Transformações que preservam a estrutura dessa escala são do 
tipo y = ax + b, a > 0. Por exemplo, a transformação y = 5/9 (x - 32) transforma graus 
Fahrenheit em centígrados. Para essa escala, podemos fazer operações aritméticas, e mé¬ 
dia, mediana e moda são medidas de posição apropriadas. 

Escala razão. Dadas duas medidas nessa escala, podemos dizer se são iguais, ou se 
uma é diferente, maior, quanto maior e quantas vezes a outra. A diferença com a escala 
intervalar é que agora existe um zero absoluto. A altura de um indivíduo é um exemplo de 
medida nessa escala. Se ela for medida em centímetros (cm), 0 cm é a origem e 1 cm é a 
unidade de medida. Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo 
com 95 cm, e esta relação continua a valer se usarmos 1 m como unidade. 
Ou seja, a estrutura da escala razão não é alterada por transformações da forma y -CX, 
C > 0. Por exemplo, y = x/100 transforma cm em m. As estatísticas apropriadas para a 

escala intervalar são também apropriadas para a escala razão. _ 

Para cada uma das variáveis abaixo, indique a escala usualmente adotada para resu¬ 
mir os dados em tabelas de freqüências: 

(a) Salários dos empregados de uma indústria. 

(b) Opinião de consumidores sobre determinado produto. 

(c) Número de respostas certas de alunos num teste com dez itens. 

(d) Temperatura diária da cidade de Manaus. 

(e) Porcentagem da receita de municípios aplicada em educação. 

(f) Opinião dos empregados da Companhia MB sobre a realização ou não de cursos 
obrigatórios de treinamento. 

(g) Ql de um indivíduo. 
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2. Usando os dados da Tabela 2.1, construa a distribuição de freqüências das variáveis: 

(a) Estado civil. 

(b) Região de procedência. 

(c) Número de filhos dos empregados casados. 

(d) Idade. 

3. Para o Conjunto de Dados 1 (CD-Brasil), construa a distribuição de freqüências para as 
variáveis população urbana e densidade populacional. 


2.3 Gráficos 

Como já salientamos no Capítulo 1, a representação gráfica da distribuição de uma 
variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Exis¬ 
tem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples para 
variáveis quantitativas. No Capítulo 3, voltaremos a tratar deste assunto, em conexão com 
medidas associadas à distribuição de uma variável. 

2.3.1 Gráficos para Variáveis Qualitativas 

Existem vários tipos de gráficos para representar variáveis qualitativas. Vários são 
versões diferentes do mesmo princípio, logo nos limitaremos a apresentar dois deles: 
gráficos em barras e de composição em setores ("pizza" ou retângulos). 

Exemplo 2.4 Tomemos como ilustração a variável Y: grau de instrução, exemplificada 
nas Tabelas 2.2 e 2.3. O gráfico em barras consiste em construir retângulos ou barras, 
em que uma das dimensões é proporcional à magnitude a ser representada (n. ou f), 
sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas 
paralelamente umas às outras, horizontal ou verticalmente. Na Figura 2.2 temos o 
gráfico em barras (verticais) para a variável Y. 


Figura 2.2: Gráfico em barras para a variável Y: grau de instrução. 
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Já o gráfico de composição em setores, sendo em forma de "pizza" o mais conhecido, 
destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. 
Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que 
correspondem às partes de maneira proporcional. A Figura 2.3 mostra esse tipo de gráfico 
para a variável Y. M uitas vezes é usado um retângulo no lugar do círculo, para indicar o todo. 


Figura 2.3: Gráfico em setores para a variável 
Y : grau de instrução. 



2.3.2 Gráficos para Variáveis Quantitativas 

Para variáveis quantitativas podemos considerar uma variedade maior de representa¬ 
ções gráficas. 

Exemplo 2.5, Considere a distribuição da variável Z, número de filhos dos empregados 
casados da seção de orçamentos da Companhia M B (Tabela 2.1). Na Tabela 2.5 temos as 
freqüências e porcentagens. 

Além dos gráficos usados para as variáveis qualitativas, como ilustrado na Figura 2.4, 
podemos considerar um gráfico chamado gráfico de dispersão unidimensional, como o da 
Figura 2.5 (a), em que os valores são representados por pontos ao longo da reta (provida de 
uma escala). Valores repetidos são acompanhados por um número que indica as repetições. 
Outra possibilidade é considerar um gráfico em que os valores repetidos são "empilhados 1 ', 
um em cima do outro, como na Figura 2.5 (b). Pode-se também apresentar o ponto mais alto 
da pilha, como aparece na Figura 2.5 (c). 


Figura 2.4 Gráfico em barras para a variável Z: 
número de filhos. 


6 - 
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Figura 2.5 Gráficos de dispersão unidimensionais para a variável Z: número de filhos. 
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Para variáveis quantitativas contínuas, necessita-se de alguma adaptação, como no exemplo 
a seguir. 


Tabela 2.5: Freqüências e porcentagens dos 
empregados da seção de orça¬ 
mentos da Companhia MB, se¬ 
gundo o número de filhos. 


N a de filhos 
z. 

Freqüência 

n. 

Porcentaqem 
100 f 

0 

4 

20 

1 

5 

25 

2 

7 

35 

3 

3 

15 

5 

1 

5 

Total 

20 

100 


Fonte: tabelo 2.1. 


Exemplo 2.6 Queremos representar graficamente a distribuição da variável S, salário 
dos empregados da seção de orçamentos da Companhia M B. A Tabela 2.4 fornece a 
distribuição de freqüências de S. Para fazer uma representação similar às apresentadas 
anteriormente, devemos usar o artifício de aproximar a variável contínua por uma 
variável discreta, sem perder muita informação. Isto pode ser feito supondo-se que todos 
os salários em determinada classe são iguais ao ponto médio desta classe. Assim, os dez 
salários pertencentes à primeira classe (de quatro a oito salários) serão admitidos iguais 
a 6,00, os 12 salários da segunda classe (oito a doze salários) serão admitidos iguais a 
10,00 e assim por diante. Então, podemos reescrever a Tabela 2.4 introduzindo os pon¬ 
tos médios das classes. Estes pontos estão na segunda coluna da Tabela 2.6. 
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Com a tabela assim construída podemos representar os pares (s ff n.) ou (s ( , f ), por um 
gráfico em barras, setores ou de dispersão unidimensional. Veja a Figura 2.6. 


Figura 2.6: Gráfico em barras para a variável S: 
salários. 



O artifício usado acima para representar uma variável contínua faz com que se 
perca muito das informações nela contidas. Uma alternativa a ser usada nestes casos é 
o gráfico conhecido como histograma. 


Tabela 2.6: Distribuição de freqüências da variável S, salário 
dos empregados da seção de orçamentos da 
Companhia MB. 


Classes de 
salários 

Ponto médio 

S; 

Freqüência 

n i 

Porcentaqem 

100^ 

4,001- 8,00 

6,00 

10 

27,78 

8,001- 12,00 

10,00 

12 

33,33 

12,001- 16,00 

14,00 

8 

22,22 

16,001-20,00 

18,00 

5 

13,89 

20,001-24,00 

22,00 

1 

2,78 

Total 

- 

36 

100,00 


Fonte: Tabela 2.4. 


Exemplo 2.7 Usando ainda a variável S do Exemplo 2.4, apresentamos na Figura 2.7 
o histograma de sua distribuição. 

O histograma é um gráfico de barras contíguas, com as bases proporcionais aos inter¬ 
valos das classes e a área de cada retângulo proporcional à respectiva freqüência. Pode-se 
usar tanto a freqüência absoluta, n., como a relativa, f. Indiquemos a amplitude do /-ésimo 
intervalo por A.. Para que a área do retângulo respectivo seja proporcional a f., a sua altura 
deve ser proporcional a f./A. (ou a n./A.), que é chamada densidade de freqüência da 
i-é sima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. 
Com essa convenção, a área total do histograma será igual a um. 
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Quando os intervalos das classes forem todos iguais a A, a densidade de freqüência da 
/'-ésima classe passa a ser fJA (ou n/A). É claro que marcar no eixo das ordenadas os valores 
n., f., n/A ou f./A leva a obter histogramas com a mesma forma; somente as áreas é que 
serão diferentes. O Problema 10 traz mais informações sobre a construção de histogramas. 


Figura 2.7: Histograma da variável S: salários. 



Para facilitar o entendimento, foi colocada acima de cada setor (retângulo) a res¬ 
pectiva porcentagem das observações (arredondada). Assim, por meio da figura, po¬ 
demos dizer que 61% dos empregados têm salário inferior a 12 salários mínimos, ou 
17% possuem salário superior a 16 salários mínimos. 

Do mesmo modo que usamos um artifício para representar uma variável contínua 
como uma variável discreta, podemos usar um artifício para construir um histograma 
para variáveis discretas. A Figura 2.8 é um exemplo de como ficaria o histograma da 
variável Z, número de filhos dos empregados casados da seção de orçamentos da Com¬ 
panhia M B, segundo os dados da Tabela 2.5. O gráfico é suficientemente auto-explicativo, 
de modo que omitimos detalhes sobre sua construção. 


Figura 2.8: Histograma da variável Z: número de filhos. 




































20 


CAPÍTULO 2 — RESUMO DE DADOS 


2.4 Ramo-e-Folhas 

Tanto o histograma como os gráficos em barras dão uma idéia da forma da distribuição da 
variável sob consideração. Veremos, no Capítulo 3, outras características da distribuição de uma 
variável, como medidas de posição e dispersão. Mas a forma da distribuição é tão importante 
quanto estas medidas. Por exemplo, saber que a renda per capita de um país é de tantos dóla-res 
pode ser um dado interessante, mas saber como esta renda se distribui é mais importante. 

Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se 
obter uma idéia da forma de sua distribuição, é o ramo-e-folhas. U ma vantagem deste diagrama 
sobre o histograma é que não perdemos (ou perdemos pouca) informação sobre os dados em si. 

Exemplo 2.8. Na Figura 2.9 construímos o ramo-e-folhas dos salários de 36 empregados da 
Companhia M B (Tabela 2.1). Não existe uma regra fixa para construir o ramo-e-folhas, mas 
a idéia básica é dividir cada observação em duas partes: a primeira (o ramo ) é colocada à 
esquerda de uma linha vertical, a segunda (a folha ) é colocada à direita. Assim, para os 
salários 4,00 e 4,56, o 4 é o ramo e 00 e 56 são as folhas. 

Um ramo com muitas folhas significa maior incidência daquele ramo (realização). 

Figura 2.9: Ramo-e-folhas para a 
variável S: salários. 


4 

OO 56 

5 

25 73 

6 

26 66 86 

7 

39 44 59 

8 

12 46 74 95 

9 

13 35 77 80 

10 

53 76 

11 

06 59 

12 

OO 79 

13 

23 60 85 

14 

69 71 

15 

99 

16 

22 61 

17 

26 

18 

75 

19 

40 

20 


21 


22 


23 

30 


Algumas informações que se obtêm deste ramo-e-folhas são: 

(a) Há um destaque grande para o valor 23,30. 

(b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40. 

(c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo, 10,00. 

(d) Há uma leve assimetria em direção aos valores grandes; a suposição de que estes dados 
possam ser considerados como amostra de uma população com distribuição simétrica, em 
forma de sino (a chamada distribuição normal), pode ser questionada. 
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A escolha do número de linhas do ramo-e-folhas é equivalente à escolha do número de 
classes de um histograma. Um número pequeno de linhas (ou de classes) enfatiza a parte M 
da relação (1.1), enquanto um número grande de linhas (ou de classes) enfatiza a parte R. 

Exemplo 2.9, Os dados abaixo referem-se à dureza de 30 peças de alumínio (Hoaglin, 


osteller e 

Tukey, 

1983, 

pág. 13). 







53,0 

70,2 

84,3 

69,5 

77,8 

87,5 

53,4 

82,5 

67,3 

54,1 

70,5 

71,4 

95,4 

51,1 

74,4 

55,7 

63,5 

85,8 

53,5 

64,3 

82,7 

78,5 

55,7 

69,1 

72,3 

59,5 

55,3 

73,0 

52,4 

50,7 


Na Figura 2.10 temos o ramo-e-folhas correspondente. Aqui, optamos por truncar 
cada valor, omitindo os décimos, de modo que 69,1 e 69,5, por exemplo, tornam-se 
69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6. 


Figura 2.10: Ramo-e-folhas para os dados de du¬ 
reza de peças de alumínio. 


5 

01 233345559 

6 

3 4 7 9 9 

7 

OOl 2 3 4 7 8 

8 

2 2 4 5 7 

9 

5 


Este é um exemplo em que temos muitas folhas em cada ramo. Uma maneira 
alternativa é duplicar os ramos. Criamos os ramos 5* e 5*, 6* e 6* etc., onde coloca¬ 
mos folhas de 0 a 4 na linha * e folhas de 5 a 9 na linha *. Obtemos o ramo-e-folhas 
da Figura 2.11. 

Um ramo-e-folhas pode ser "adornado" com outras informações, como o núme¬ 
ro de observações em cada ramo. Para outros exemplos, veja o Problema 19. 

Figura 2.11 : Ramo-e-folhas para os 
dados de dureza, com 
ramos divididos. 


5* 

0 1 2 3 3 3 4 

5* 

5 5 5 9 

6* 

3 4 

6* 

7 9 9 

7* 

OOl 234 

7* 

7 8 

8* 

2 2 4 

8* 

5 7 
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9* 
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4. Contou-se o número de erros de impressão da primeira página de um jornal durante 
50 dias, obtendo-se os resultados abaixo: 


8 

11 

8 

12 

14 

13 

11 

14 

14 

15 

6 

10 

14 

19 

6 

12 

7 

5 

8 

8 

10 

16 

10 

12 

12 

8 

11 

6 

7 

12 

7 

10 

14 

5 

12 

7 

9 

12 

11 

9 

14 

8 

14 

8 

12 

10 

12 

22 

7 

15 


(a) Represente os dados graficamente. 

(b) Faça um histograma e um ramo-e-folhas. 

5. Usando os resultados do Problema 2 e da Tabela 2.3: 

(a) construa um histograma para a variável idade; e 

(b) proponha uma representação gráfica para a variável grau de instrução. 

6. As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores 
municípios do Brasil estão dadas abaixo. 


3,67 

1,82 

3,73 

4,10 

4,30 

1,28 

8,14 

2,43 

4,17 

5,36 

3,96 

6,54 

5,84 

7,35 

3,63 

2,93 

2,82 

8,45 

5,28 

5,41 

7,77 

4,65 

1,88 

2,12 

4,26 

2,78 

5,54 

0,90 

5,09 

4,07 


(a) Construa um histograma. 

(b) Construa um gráfico de dispersão unidimensional. 

7. Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Compa¬ 
nhia MB. Após analisar o tipo de serviço que cada seção executa, você ficou indeciso e 
resolveu tomar a decisão baseado em dados fornecidos para as duas seções. O departa¬ 
mento pessoal forneceu as dados da Tabela 2.1 para os funcionários da seção de 
orçamentos, ao passo que para a seção técnica os dados vieram agrupados segundo as 
tabelas abaixo, que apresentam as freqüências dos 50 empregados dessa seção, segundo 
as variáveis grau de instrução e salário. Baseado nesses dados, qual seria a sua deci¬ 
são? Justifique. 


Instrução 

Freqüência 

Fundamental 

15 

Médio 

30 

Superior 

5 

Total 

50 
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Classe de Salários 

Freqüência 

7,501- 10,50 

14 

10,501-13,50 

17 

13,501- 16,50 

11 

16,501-19,50 

8 

Total 

50 


8. Construa um histograma, um ramo-e-folhas e um gráfico de dispersão unidimensiona 
para o conjunto de dados 2 (CD-Municípios). 


2.5 Exemplos Computacionais 

Nesta seção vamos analisar dois dos conjuntos de dados apresentados no final do 
livro, utilizando técnicas vistas neste capítulo e programas computacionais. 

Exemplo 2.10. Considere o conjunto de notas em Estatística de 100 alunos de um 
curso de Economia (conjunto de dados 3, CD-Notas). O histograma dos dados está na 
Figura 2.12, que mostra que a distribuição dos dados é razoavelmente simétrica. O 
gráfico de dispersão unidimensional e o ramo-e-folhas correspondentes estão nas Fi¬ 
guras 2.13 e 2.14, respectivamente, e ambos contêm informação semelhante à dada 
pelo histograma. 


Figura 2.12: Histograma para o CD-Notas. SPlus. 
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Figura 2.13: Gráfico de dispersão unidimensional para o CD-Notas. Minitab. 


-+- 

-+- 

-+- 

-+- 

-+- 

-+- 

1.6 

3.2 

4.8 

6.4 

8.0 

9.6 


Figura 2.14: Ramo-e-folhas para o CD-Notas. Minitab. 


1 

5 

2 

555 

3 

000055555 

4 

000000555555 

5 

00000000055555555555 

6 

000000000000055555555555 

7 

0000005555555555 

8 

000000555 

9 

005 

10 

000 


Exemplo 2.11. 0 conjunto de dados 4 (CD-Poluição) traz dados sobre a poluição na cidade 
de São Paulo. Tomemos os dados de temperatura, de l 2 de janeiro a 30 de abril de 1991 
(120 dados). Essas observações constituem o que se chama série temporal, ou seja, os da¬ 
dos são observados em instantes ordenados do tempo. Espera-se que exista relação entre as 
observações em instantes de tempo diferentes, o que não acontece com os dados do exemplo 
anterior: a nota de um aluno, em princípio, é independente da nota de outro aluno qualquer. 
O gráfico dessa série temporal está na Figura 2.15. Observa-se uma variação da temperatura 
no decorrer do tempo, entre 12 e 22 °C. 

Figura 2.15 Dados de temperatura de São Paulo. SPlus. 
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O histograma e o gráfico de dispersão unidimensional estão nas Figuras 2.16 e 2.17, 
respectivamente, mostrando que a distribuição dos dados não é simétrica. O ramo-e-folhas 
da Figura 2.18 ilustra o mesmo comportamento. 

Figura 2.16: Histograma dos dados de temperatura de São Paulo. SPlus. 
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Figura 2.17: Gráfico de dispersão unidimensional para os dados de 
temperatura de São Paulo. Minitab. 
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Figura 2.18: Ramo-e-folhas para os dados de temperatura de 
São Paulo. Minitab. 
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3 

13 

128 

14 

0012588899 

15 
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Em cada figura está indicado o pacote computacional que foi utilizado, com as 
devidas adaptações. 
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2.6 Problemas e Complementos 

9. A MB Indústria e Comércio, desejando melhorar o nível de seus funcionários em cargos 
de chefia, montou um curso experimental e indicou 25 funcionários para a primeira 
turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no curso 
estão na tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de 
avaliação, cada instrutor adotou seu próprio sistema de aferição. Usando dados daquela 
tabela, responda às questões: 

(a) Após observar atentamente cada variável, e com o intuito de resumi-las, como você 
identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou contínua) cada 
uma das 9 variáveis listadas? 

(b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, 
Política e Estatística. 

(c) Construa o histograma para as notas da variável Redação. 

(d) Construa a distribuição de freqüências da variável Metodologia e faça um gráfico 
para indicar essa distribuição. 

(e) Sorteado ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenha 
obtido grau A em Metodologia? 

(f) Se, em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido A 
em Metodologia é maior ou menor do que a resposta dada em (e)? 

(g) Como é o aproveitamento dos funcionários na disciplina Estatística, segundo a seção 
a que eles pertencem? 


Func. 

Seção 

n 

Administr. 

Direito 

Redação 

Estatíst. 

Inglês 

Metodologia 

Política 

Economia 

1 

p 

8,0 

9,0 

8,6 

9,0 

B 

A 

9,0 

8,5 

2 

p 

8,0 

9,0 

7,0 

9,0 

B 

C 

6,5 

80 

3 

p 

8,0 

9,0 

8,0 

8,0 

D 

B 

9,0 

8,5 

4 

p 

6,0 

9,0 

8,6 

8,0 

D 

C 

6,0 

8,5 

5 

p 

8,0 

9,0 

8,0 

9,0 

A 

A 

6,5 

9,0 

6 

p 

8,0 

9,0 

8,5 

10,0 

B 

A 

6,5 

9,5 

7 

p 

8,0 

9,0 

8,2 

8,0 

D 

C 

9,0 

7,0 

8 

T 

10,0 

9,0 

7,5 

8,0 

B 

C 

6,0 

8,5 

9 

T 

8,0 

9,0 

9,4 

9,0 

B 

B 

10,0 

8,0 

10 

T 

10,0 

9,0 

7,9 

8,0 

B 

C 

9,0 

7,5 

11 

T 

8,0 

9,0 

8,6 

10,0 

C 

B 

10,0 

8,5 

12 

T 

8,0 

9,0 

8,3 

7,0 

D 

B 

6,5 

8,0 

13 

T 

6,0 

9,0 

7,0 

7,0 

B 

C 

6,0 

8,5 

14 

T 

10,0 

9,0 

8,6 

9,0 

A 

B 

10,0 

7,5 

15 

V 

8,0 

9,0 

8,6 

9,0 

C 

B 

10,0 

7,0 

16 

V 

8,0 

9,0 

9,5 

7,0 

A 

A 

9,0 

7,5 

17 

V 

8,0 

9,0 

6,3 

8,0 

D 

C 

10,0 

7,5 

18 

V 

6,0 

9,0 

7,6 

9,0 

C 

C 

6,0 

8,5 

19 

V 

6,0 

9,0 

6,8 

4,0 

D 

C 

6,0 

9,5 

20 

V 

6,0 

9,0 

7,5 

7,0 

C 

B 

6,0 

8,5 

21 

V 

8,0 

9,0 

7,7 

7,0 

D 

B 

6,5 

8,0 

22 

V 

6,0 

9,0 

8,7 

8,0 

C 

A 

6,0 

9,0 

23 

V 

8,0 

9,0 

7,3 

10,0 

C 

C 

9,0 

7,0 

24 

V 

8,0 

9,0 

8,5 

9,0 

A 

A 

6,5 

9,0 

25 

V 

8,0 

9,0 

7,0 

9,0 

B 

A 

9,0 

8,5 


(*) (P = departamento pessoal, T = seção técnica e V = seção de vendas) 
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10. Intervalos de classes desiguais. É muito comum o uso de classes com tamanhos desi¬ 
guais no agrupamento dos dados em tabelas de freqüências. Nestes casos deve-se 
tomar alguns cuidados especiais quanto à análise e construção do histograma. 

A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o 
número de empregados. Uma análise superficial pode levar à conclusão de que a 
concentração vem aumentando até atingir um máximo na classe 40 I— 60, voltando 
a diminuir depois, mas não tão acentuadamente. Porém, um estudo mais detalhado 
revela que a amplitude da classe 40 I— 60 é o dobro da amplitude das classes anterio¬ 
res. Assim, espera-se que mais elementos caiam nessa classe, mesmo que a concen¬ 
tração seja levemente inferior. Então, um primeiro cuidado é construir a coluna que 
indica as amplitudes A ( de cada classe. Estes valores estão representados na terceira 
coluna da tabela. 


Número de 
empregados 

Freqüência 

A 

Amplitude 

A f 

Densidade 

n,/A, 

Proporção 

fi 

Densidade 

filA; 

OH 

10 

5 

10 

0,50 

0,02 

0,0020 

10H 

20 

20 

10 

2,00 

0,08 

0,0080 

20 H 

30 

35 

10 

3,50 

0,14 

0,0140 

30 H 

40 

40 

10 

4,00 

0,16 

0,0160 

40 H 

60 

50 

20 

2,50 

0,20 

0,0100 

60 H 

80 

30 

20 

1,50 

0,12 

0,0060 

80 H 

100 

20 

20 

1,00 

0,08 

0,0040 

100H 

140 

20 

40 

0,50 

0,08 

0,0020 

140H 

180 

15 

40 

0,38 

0,06 

0,0015 

180H 

260 

15 

80 

0,19 

0,06 

0,0008 

Total 

250 

- 

- 

1,00 

— 


Um segundo passo é a construção da coluna das densidades de freqüências em 
cada classe, que é obtida dividindo as freqüências n. pelas amplitudes A j; ou seja, a 
medida que indica qual a concentração por unidade da variável. Assim, observan¬ 
do-se os números da quarta coluna, vê-se que a classe de maior concentração 
passa a ser a 301— 40, enquanto a última é a de menor concentração. Para compreender 
a distribuição, estes dados são muito mais informativos do que as freqüências absolu¬ 
tas simplesmente. 

De modo análogo, pode-se construir a densidade da proporção (ou porcentagem) 
por unidade da variável (verifique a construção através da 5 a e da 6 a colunas). A inter¬ 
pretação para f./A, é muito semelhante àquela dada para nj A,. 

Para a construção do histograma, basta lembrar que a área total deve ser igual a 1 
(ou 100%), o que sugere usar no eixo das ordenadas os valores de f.J A f . O histograma 
para estes dados está na Figura 2.19. 
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Figura 2.19: Histograma dos dados do Problema 10. 



11. Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 
aluguéis rurais. 

(a) Construa os histogramas das duas distribuições. 

(b) Com base nos histogramas, discuta e compare as duas distribuições. 


Classes de aluguéis (codificados) 

Zona urbana 

Zona rural 

2H 

3 

10 

30 

31- 

5 

40 

50 

51- 

7 

80 

15 

71- 

10 

50 

5 

101— 

15 

20 

0 

Total 

200 

100 


12. Histograma alisado. Na Tabela 2.4 tem-se a distribuição de freqüências dos salários de 
36 funcionários, agrupados em classes de amplitude 4. Na Figura 2.7 tem-se o respectivo 
histograma. Reagrupando-se os dados em classes de amplitude 2, obter-se-ia a seguinte 
tabela de freqüências e o correspondente histograma (Fig. 2.20 (a)). 


Classe de salários 

Freqüências 

o,- 

4,001- 

6,00 

4 

6,001- 

8,00 

6 

8,001- 

10,00 

8 

10,001- 

12,00 

4 

12,001- 

14,00 

5 

14,001- 

16,00 

3 

16,001- 

18,00 

3 

18,001- 

20,00 

2 

20,001- 

22,00 

0 

22,001- 

24,00 

1 

Total 

36 
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Figura 2.20 (a): Histograma para a variável S: salário, A = 2. 



Se houvesse um número suficientemente grande de observações, poder-se-ia ir 
diminuindo os intervalos de classe, e o histograma iria ficando cada vez menos irregu¬ 
lar, até atingir um caso limite com uma curva bem mais suave. Por exemplo, o compor¬ 
tamento da distribuição dos salários poderia ter a representação da Figura 2.20 (b). 
Esse histograma alisado é muito útil para ilustrar rapidamente qual o tipo de compor¬ 
tamento que se espera para a distribuição de uma dada variável. No capítulo referente 
a variáveis aleatórias contínuas, voltaremos a estudar este histograma sob um ponto de 
vista mais matemático. 

A interpretação desse gráfico é a mesma do histograma. Assim, nas regiões onde 
a curva é mais alta, significa uma maior densidade de observações. No exemplo aci¬ 
ma, conforme se aumenta o salário, observa-se que a densidade de freqüência vai 
diminuindo. 


Figura 2.20 (b): Histograma alisado para a variável S: salário. 
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13. Esboce o histograma alisado para cada uma das situações descritas abaixo: 

(a) Distribuição dos salários registrados em carteira de trabalho de moradores da 
cidade de São Paulo. 

(b) Distribuição das idades de alunos de uma Faculdade de Economia e Admi¬ 
nistração. 

(c) Distribuição das idades dos alunos de uma classe da Faculdade do item anterior. 
Compare as duas distribuições. 

(d) Distribuição do número de óbitos segundo a faixa etária. 

(e) Distribuição do número de divórcios segundo o número de anos de casado. 

(f) Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da 
Loteria Federal, durante os dez últimos anos. 

14. Faça no mesmo gráfico um esboço das três distribuições descritas abaixo: 

(a) Distribuição das alturas dos brasileiros adultos. 

(b) Distribuição das alturas dos suecos adultos. 

(c) Distribuição das alturas dos japoneses adultos. 

15. Freqüências acumuladas. Uma outra medida muito usada para descrever dados quan¬ 
titativos é a freqüência acumulada, que indica quantos elementos, ou que porcenta¬ 
gem deles, estão abaixo de um certo valor. Na tabela a seguir, a terceira e a quinta 
colunas indicam respectivamente a freqüência absoluta acumulada e a proporção 
(porcentagem) acumulada. Assim, observando a tabela podemos afirmar que 27,78% 
dos indivíduos ganham até oito salários mínimos; 61,11% ganham até 12 salários míni¬ 
mos; 83,33% ganham até 16 salários mínimos; 97,22% ganham até 20 salários 
mínimos e 100% dos funcionários ganham até 24,00 salários. 


Classe de 
salários 

Freqüência 

n 

l 

Freqüência 

acumulada 

N. 

Porcentaqem 

100/: 

Porcentagem 

acumulada 

100F j 

4,00 h- 8,00 

10 

10 

27,78 

27,78 

8,001- 12,00 

12 

22 

33,33 

61,11 

12,00 E- 16,00 

8 

30 

22,22 

83,33 

16,001-20,00 

5 

35 

13,89 

97,22 

20,001-24,00 

1 

36 

2,78 

100,00 

Total 

36 

- 

100,00 

- 


A Figura 2.21 é a ilustração gráfica da porcentagem acumulada. 
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Figura 2.21: Porcentagens acumuladas para o Problema 15. 
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80 

60 

40 

20 



4 8 s 12 16 20 24 Salários 


Este gráfico pode ser usado para fornecer informações adicionais. Por exemplo, para 
saber qual o salário S tal que 50% dos funcionários ganhem menos do que S, basta 
procurar o ponto (s, 50) na curva. Observando as linhas pontilhadas no gráfico, verifi¬ 
camos que a solução é um pouco mais do que 10 salários mínimos. 

16. Usando os dados da Tabela 2.1: 

(a) Construa a distribuição de freqüências para a variável idade. 

(b) Faça o gráfico da porcentagem acumulada. 

(c) Usando o gráfico anterior, ache os valores de / correspondentes aos pontos (/, 25%), 


(/', 50%) e (/', 75%). 


17. Freqüências acumuladas (continuação). Para um tratamento estatístico mais rigoroso das 
variáveis quantitativas, costuma-se usar uma definição mais precisa para a distribuição 
das freqüências acumuladas. Em capítulos posteriores será vista a sua utilização. 


Definição. Dadas n observações de uma variável quantitativa e um número X real qualquer, 


indicar-se-á por N(x) o número de observações menores ou iguais a X, e chamar-se-á de 
função de distribuição empírica (f.d.e.) a função F„(x) ou F e (x) 



Exemplo 2.12. Para a variável 5 = salário dos 36 funcionários listados na Tabela 2.1, é 
fácil verificar que: 


0, ses<4,00 

1/36 , se 4,00 =£ s < 4,56 


F 3 6 ( s )= \ 2/36 , se 4,56 « s < 5,25 


. 1, se s 3= 23,30 


0 gráfico está na Figura 2.22. Àqueles não familiarizados com a representação 
gráfica de funções, recomenda-se a leitura de Morettin, Hazzan & Bussab (2005). 
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Figura 2.22: Função de distribuição empírica para o Exemplo 2.12. 
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Exemplo 2 . Esta definição também vale para variáveis quantitativas discretas. 


F,„(x)= 1 


cujo gráfico é o da Figura 2.23. 


ios resumida 

na Tabela 2.5, tem-se a seguinte f.d.e 

0,00, 

sex < 0 

0,20, 

se 0 ^ x < 1 

0,45, 

se 1 s£ x < 2 

0,80, 

se 2 s£ x < 3 

0,95, 

se 3 x < 5 

1,00, 

sex s* 5 


Figura 2.23: Função de distribuição empírica 
para o Exemplo 2.13. 


F 2oW - 

1,00 

0,80 

0,60 

0,40 

0,20 

•- 


0 12 3 4 5 x 




















2.6 PROBLEMAS E COMPLEMENTOS 


33 


18. Construir a f.d.e. para a variável idade referente aos dados da Tabela 2.1. 

19. Ramo-e-folhas (continuação). Os dados abaixo referem-se à produção, em toneladas, 
de dado produto, para 20 companhias químicas (numeradas de 1 a 20). 

(1,50), (2,280), (3,560), (4,170), (5,180), 

(6,500), (7,250), (8,200), (9,1.050), (10,240), 

(11,180), (12,1.000), (13,1.100), (14,120), (15,4.200), 

(16,5.100), (17,480), (18,90), (19,870), (20,360). 

Vemos que os valores estendem-se de 50 a 5.100 e, usando uma representação 
semelhante à da Figura 2.9, teríamos um grande número de linhas. A Figura 2.24 (a) 
mostra uma outra forma de ramo-e-folhas, com ramos divididos. A divisão ocorre no 
ramo, cada vez que se muda por um fator de 10. 

Uma economia de 4 linhas poderia ser obtida, representando-se os valores 50 e 90 
da Figura 2.24 (a) num ramo denominado 0. Obtemos a Figura 2.24 (b). 

Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo- 
e-folhas. Por exemplo, podemos ter a contagem do número de folhas em cada ramo, como 
mostra a Figura 2.25 (a). Aqui, temos o ramo-e-folhas dos salários dos empregados da 
Tabela 2.1. Na Figura 2.25 (b) acrescentamos as contagens de folhas a partir de cada 
extremo até o ramo que contém a mediana. Esse tipo de opção é chamado profundidade 
( depth ) nos pacotes. 

Figura 2.24 Ramo-e-folhas das produções de companhias químicas. 
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Figura 2.25: Ramo-e-folhas com: (a) freqüências em cada ramo, (b) profundidade. 
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20. Construa um ramo-e-folhas para a variável CO (monóxido de carbono) do conjunto de 
dados 4 (CD-Poluição). 







Capítulo 3 


Medidas-Resumo 


3.1 Medidas de Posição 

* 

Vimos que o resumo de dados por meio de tabelas de freqüências e ramo-e-folhas forne¬ 
ce muito mais informações sobre o comportamento de uma variável do que a própria tabela 
original de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando 
um ou alguns valores que sejam representativos da série toda. Quando usamos um só valor, 
obtemos uma redução drástica dos dados. Usualmente, emprega-se uma das seguintes me¬ 
didas de posição (ou localização) central: média, mediana ou moda. 

A moda é definida como a realização mais freqüente do conjunto de valores observados. 
Por exemplo, considere a variável Z, número de filhos de cada funcionário casado, resumida 
na Tabela 2.5 do Capítulo 2. Vemos que a moda é 2, correspondente à realização com maior 
freqüência, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos 
valores pode ser bi modal, tri modal etc. 

A mediana é a realização que ocupa a posição central da série de observações, quando 
estão ordenadas em ordem crescente. Assim, se as cinco observações de uma variável forem 
3, 4, 7, 8 e 8, a mediana é o valor 7, correspondendo à terceira observação. Quando o 
número de observações for par, usa-se como mediana a média aritmética das duas observa¬ 
ções centrais. Acrescentando-se o valor 9 à série acima, a mediana será (7 + 8)/2 = 7,5. 

Finalmente, a média aritmética, conceito familiar ao leitor, é a soma das observações divi¬ 
dida pelo número delas. Assim, a média aritmética de 3, 4, 7, 8 e 8 é (3 + 4 + 7 + 8 + 8)/5 = 6. 

Exemplo 3.1. Usando os dados da Tabela 2.5, já encontramos que a moda da variável Z é 2. 
Para a mediana, constatamos que esta também é 2, média aritmética entre a décima e a 
décima primeira observações. Finalmente, a média aritmética será 

4x0+5xl+7x2+3x3+5xl 33 

-2Õ- = 7Õ = U5 ' 
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Neste exemplo, as três medidas têm valores próximos e qualquer uma delas pode ser 
usada como representativa da série toda. A média aritmética é, talvez, a medida mais usada. 
Contudo, ela pode conduzir a erros de interpretação. Em muitas situações, a mediana é uma 
medida mais adequada. Voltaremos a este assunto mais adiante. 

Vamos formalizar os conceitos introduzidos acima. Se x v ..., x n são os n valores 
(distintos ou não) da variável X, a média aritmética, ou simplesmente média, de X 
pode ser escrita 


I= *1 + ■■■ +Xn 


-i n 

= i Ix,. 

n i =i 1 


(3.1) 


A gora, se tivermos n observações da variável X, das quais n 1 são iguais a x v n 2 são iguais 
a x 2 etc., n k iguais a x k , então a média de X pode ser escrita 


* = n 1 x 1 +n 2 x 2 + ... +n k x k _ 1 v n y 

n n áí ' 


(3.2) 


Se f. = n. In representar a freqüência relativa da observação x ( , então (3.2) também pode 
ser escrita 


x = E f,x r 

i=i 1 1 


(3.3) 


Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a 
menor observação por x (1) , a segunda por x (2) , e assim por diante, obtendo-se 


(d 


( 2 ) 


(n- 1) 


(n)‘ 


(3.4) 


Por exemplo, sex 2 =3,x 2 =-2,x 3 =6, x 4 = l,x 5 =3, então -2 ^1^3«3^6, de modo 
que X (1) = - 2, x (2) = 1, x (3) = 3, x (4) = 3 e x (5) = 6. 

As observações ordenadas como em (3.4) são chamadas estatísticas de ordem. 

Com esta notação, a mediana da variável X pode ser definida como 


md(X) 






sen ímpar; 
se n par. 


(3.5) 


Exemplo 3.2 A determinação das medidas de posição para uma variável quantitativa 
contínua, através de sua distribuição de freqüências, exige aproximações, pois perde¬ 
mos a informação dos valores das observações. Consideremos a variável S: salário 
dos 36 funcionários da Companhia M B, agrupados em classes de salários, conforme a 
Tabela 2.6. Uma aproximação razoável é supor que todos os valores dentro de uma 
classe tenham seus valores iguais ao ponto médio desta classe. Este procedimento nos 
deixa na mesma situação do caso discreto, onde as medidas são calculadas usando-se 
os pares (x ( ., n.) ou (x f , f), como em (3.2) e (3.3). 
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A moda, mediana e média para os dados da Tabela 2.6 são, respectivamente, 

mo(S) — 10,00, 

md(S) — 10,00, 

5 _ 10 x 6,00 + 12 x 10,00 + 8 x 14,00 + 5 x 18,00 + 1 x 22,00 _ n 22 

36 

Observe que colocamos o sinal de - e não de igualdade, pois os valores verdadeiros não 
são os calculados. Por exemplo, a mediana de S é a média entre as duas observações cen¬ 
trais, quando os dados são ordenados, isto é, 9,80 e 10,53, portanto md(S) = 10,16. Quais 
são, neste exemplo, a média e moda verdadeiras? 

Observe que, para calcular a moda de uma variável, precisamos apenas da distribuição 
de freqüências (contagem), já para a mediana necessitamos minimamente ordenar as realiza¬ 
ções da variável. Finalmente, a média só pode ser calculada para variáveis quantitativas. 

Estas condições limitam bastante o cálculo de medidas-resumos para as variáveis 
qualitativas. Para as variáveis nominais somente podemos trabalhar com a moda. Para 
as variáveis ordinais, além da moda, podemos usar também a mediana. Devido a esse 
fato, iremos apresentar daqui em diante medidas-resumo para variáveis quantitativas, 
que permitem o uso de operações aritméticas com seus valores. 

Exemplo 3.2. (continuação) Retomemos os dados da Companhia M B. A moda para a 
variável 1/: região de procedência é mo0/) = outra. Para a variável Y\ grau de instrução, 
temos que mo(T) = ensino médio e md(T) = ensino médio. 

Veremos, na seção 3.3, que a mediana é uma medida resistente, ao passo que a 
média não o é, em particular para distribuições muito assimétricas ou contendo valo¬ 
res atípicos. Por outro lado, a média é ótima (num sentido que será discutido no Capí¬ 
tulo 10) se a distribuição dos dados for aproximadamente normal. 

Uma outra medida de posição também resistente é a média aparada, definida no 
Problema 39. Esta medida envolve calcular a média das observações centrais, despre- 
zando-se uma porcentagem das iniciais e finais. 

3.2 Medidas de Dispersão 

O resumo de um conjunto de dados por uma única medida representativa de posi¬ 
ção central esconde toda a informação sobre a variabilidade do conjunto de observa¬ 
ções. Por exemplo, suponhamos que cinco grupos de alunos submeteram-se a um 
teste, obtendo-se as seguintes notas: 
grupo A (variável X): 3, 4, 5, 6, 7 

grupo B (variável Y)\ 1, 3, 5, 7, 9 

grupo C (variável Z): 5, 5, 5, 5, 5 

grupo D (variável W): 3, 5, 5, 7 

grupo E (variável V): 3, 5, 5, 6, 6 
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Vemos que x = y = z = w = v = 5,0. A identificação de cada uma destas séries por sua 
média (5, em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, 
então, a conveniência de serem criadas medidas que sumarizem a variabilidade de um con¬ 
junto de observações e que nos permita, por exemplo, comparar conjuntos diferentes de 
valores, como os dados acima, segundo algum critério estabelecido. 

Um critério freqüentemente usado para tal fim é aquele que mede a dispersão dos 
dados em torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. 
O princípio básico é analisar os desvios das observações em relação à média dessas 
observações. 

Para o grupo A acima os desvios x. - x são: -2, -1, 0, 1, 2. É fácil ver (Problema 14 
(a)) que, para qualquer conjunto de dados, a soma dos desvios é igual a zero. Nestas 
condições, a soma dos desvios 2 5 , =i U, - x) não é uma boa medida de dispersão para o 
conjunto A. Duas opções são: (a) considerar o total dos desvios em valor absoluto; (b) 
considerar o total dos quadrados dos desvios. Para o grupo A teríamos, respectivamente, 

5 

^ lx - xl=2+l+0 + l+ 2=6, 

h i ' 

Y(x. - x) 2 = 4 + 1 + 0 + 1 + 4 = 10. 

h .i 1 

O uso desses totais pode causar dificuldades quando comparamos conjuntos de dados 
com números diferentes de observações, como os conjuntos A e D acima. Desse modo, é 
mais conveniente exprimir as medidas como médias, isto é, o desvio médio e a variância 
são definidos por 


dm(X) = 

h = i IX/ - xl 

n 

(3.6) 

var(X) = 

Xí = 1 (X/ - X) 2 
n 

(3.7) 

respectivamente. Para o grupo A temos 



dm(X) = 

6/5 = 1,2, 


var(X) = 

10/5 = 2,0, 



enquanto para o grupo D temos 

dm(W) =4/4 = 1,0, 
var(W) = 8/4 = 2,0. 

Podemos dizer, então, que, segundo o desvio médio, o grupo D é mais homogêneo que 
A, enquanto ambos são igualmente homogêneos, segundo a variância. 

Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados 
(por exemplo, se os dados são expressos em cm, a variância será expressa em cm 2 ), pode 
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causar problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido 
como a raiz quadrada positiva da variância. Para o grupo A o desvio padrão é 

dp(X) = V var (X) = VI = 1,41. 

Ambas as medidas de dispersão (dm e dp) indicam em média qual será o "erro" (desvio) 
cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados 
(no caso, a média). 

Exemplo 3.3, Vamos calcular as medidas de dispersão acima para a variável Z = número 
de filhos, resumida na Tabela 2.5. Como vimos no Exemplo 3.1, z = 1,65. Os desvios são 
z. - z: -1,65; -0,65; 0,35; 1,35; 3,35. Segue-se que 

dm(z) = 4 x (1,65) + 5 x (0,65) + 7 x (0,35) + 3 x (1,35) + 1 x (3,35) = Q ^ 
Também, 

var(z) _ 4(-l,65) 2 + 5(-0,65) 2 + 7(0,35) 2 + 3(1,35) 2 + 1(3,35) 2 = 

Conseqüentemente, o desvio padrão de Z é 

dp(Z) = VT528 = 1,24. 

Suponha que observemos n 1 vezes os valores x : etc., n k vezes o valor x k da variável 
X. Então, 

dm(X)=£kw^= (3.8) 

n i =i 1 1 

var(x) = = i n^-x ) 2 = £ f { _ ^ (3 . 9) 

dp(X) = Vvar (X). (3.10) 

O cálculo (aproximado) das medidas de dispersão no caso de variáveis contínuas, agru¬ 
padas em classes, pode ser feito de modo análogo àquele usado para encontrar a média no 
Exemplo 2.2. 

Exemplo 3.4. Consideremos a variável S = salário. A média encontrada no Exemplo 3.2 
foi s = 11,22. Com os dados da Tabela 2.6 e usando (3.9) encontramos 

var(S) - [10(6, 00 - 11,22) 2 + 12(10,00 - 11,22) 2 + 8(14 - 11,22) 2 
+ 5(18,00 - 11,22) 2 + 1(22,00 - ll,22) 2 ]/36 = 19,40 


e, portanto, 

dp(S) - VlíMÕ = 4,40. 

É fácil ver que dm(S) — 3,72. 
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Veremos, mais tarde, que a variância de uma amostra será calculada usando-se o deno¬ 
minador n - 1, em vez de n. A justificativa será dada naquele capítulo, mas para grandes 
amostras pouca diferença fará o uso de um ou outro denominador. 

Tanto a variância como o desvio médio são medidas de dispersão calculadas em rela¬ 
ção à média das observações. Assim como a média, a variância (ou o desvio padrão) é uma 
boa medida se a distribuição dos dados for aproximadamente normal. O desvio médio é 
mais resistente que o desvio padrão, no sentido a ser estudado na seção seguinte. 

Poderíamos considerar uma medida que seja calculada em relação à mediana. O desvio 
absoluto mediano é um exemplo e é mais resistente que o desvio padrão. Veja o Problema 41. 

Usando o Problema 14 (b), uma maneira computacionalmente mais eficiente de calcu¬ 
lar a variância é 


2 

var(X) = ^ = lX/ 

e, no caso de observações repetidas, 

var(X) =t ftf 

i =1 ' 


-X 2 , 

(3.11) 

X 2 . 

(3.12) 


^ _ 

1. Quer se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma 
amostra de 50 páginas, encontrando-se o número de erros por página da tabela abaixo. 

(a) Qual o número médio de erros por página? 

(b) E o número mediano? 

(c) Qual é o desvio padrão? 

(d) Faça uma representação gráfica para a distribuição. 

(e) Se o livro tem 500 páginas, qual o número total de erros esperado no livro? 


Erros 

Freqüência 

0 

25 

1 

20 

2 

3 

3 

1 

4 

1 


2. As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em 
porcentagem) 2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média, 
a mediana e o desvio padrão. 

3. Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma 
cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que 
compõem a região, e foram encontrados os seguintes números de casas por quarteirão: 


2 

2 

3 

10 

13 

14 

15 

15 

16 

16 

18 

18 

20 

21 

22 

22 

23 

24 

25 

25 

26 

27 

29 

29 

30 

32 

36 

42 

44 

45 

45 

46 

48 

52 

58 

59 

61 

61 

61 

65 

66 

66 

68 

75 

78 

80 

89 

90 

92 

97 










3.3 QUANTIS EMPÍRICOS 


41 


(a) Use cinco intervalos e construa um histograma. 

(b) Determine uma medida de posição central e uma medida de dispersão. 

4. (a) Dê uma situação prática onde você acha que a mediana é uma medida mais apro¬ 

priada do que a média. 

(b) Esboce um histograma onde a média e a mediana coincidem. Existe alguma classe 
de histogramas onde isso sempre acontece? 

(c) Esboce os histogramas de três variáveis (X, Y e Z) com a mesma média aritmética, 
mas com as variâncias ordenadas em ordem crescente. 

5. Suponha que a variável de interesse tenha a distribuição como na figura abaixo. 



Você acha que a média é uma boa medida de posição? E a mediana? Justifique. 

6. Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações: 


Número de filhos 

0 

1 

2 

3 

4 

5 

mais que 5 

Freqüência de famílias 

17 

20 

28 

19 

7 

4 

5 


(a) Qual a mediana do número defilhos? 

(b) E a moda? 

(c) Que problemas você enfrentaria para calcular a média? Faça alguma suposição e 
encontre-a. 


3.3 Qucmtis Empíricos 

Tanto a média como o desvio padrão podem não ser medidas adequadas para represen¬ 
tar um conjunto de dados, pois: 

(a) são afetados, de forma exagerada, por valores extremos; 

(b) apenas com estes dois valores não temos idéia da simetria ou assimetria da 
distribuição dos dados. 

Para contornar esses fatos, outras medidas têm de ser consideradas. 

Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade 
acima (ver fórmula (3.5)). De modo geral, podemos definir uma medida, chamada quantil 
de ordem p ou p-quantil, indicada por q(p), onde p é uma proporção qualquer, 0 < p < 1, tal 
que 100p% das observações sejam menores do que q(p). 
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Indicamos, abaixo, alguns quantis e seus nomes particulares. 


<7(0,25) = q 1 
<7(0,50) = q 2 
<7(0,75) = q 3 
<7(0,40): 
<7(0,95): 


I a Quartil = 25 a Percentil 
M ediana = 2 a Quartil = 50 a Percentil 
3 a Quartil = 75 a Percentil 
4 a Decil 
95 a Percentil 


Dependendo do valor de p, há dificuldades ao se calcular os quantis. Isso é ilustrado no 
exemplo a seguir. 


Exemplo 3.5 Suponha que tenhamos os seguintes valores de uma variável X: 

15, 5, 3, 8, 10, 2, 7, 11, 12. 

Ordenando os valores, obtemos as estatísticas de ordem x (1) = 2, x {2) = 3,..., x {9) = 15, ou 
seja, teremos 

2 <3 <5 <7 <8 <10 <11 <12 <15. 

Usando a definição de mediana dada, teremos que md = <7(0,5) = q 2 = x (5) = 8. 
Suponha que queiramos calcular os dois outros quartis, q 3 e q 3 . A idéia é dividir os 
dados em quatro partes: 


2 3 5 7 8 10 11 12 15 

Uma possibilidade razoável é, então, considerar a mediana dos primeiros quatro 
valores para obter < 7 1( ou seja, 

<1.-1^-4. 

e a mediana dos últimos quatro valores para obter q 3 , ou seja, 

11 + 12 


Qs=- 


= 11,5. 


Obtemos, então, a sequência 

2 3 (4) 5 7 (8) 10 11 (11,5) 12 15 
Observe que a média dos n = 9 valores é x = 8,1, próximo à mediana. 


Exemplo 3.5 (continuação). Acrescentemos, agora, o valor 67 à lista de nove valores 
do Exemplo 3.5, obtendo-se agora os n = 10 valores ordenados: 

2<3<5<7<8< 10 <11 <12 <15 <67 
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Agora, X = 14, enquanto que a mediana fica 


que está próxima da mediana dos nove valores originais, mas ambas (8 e 9) relativa¬ 
mente longes de X. Dizemos que a mediana é resistente (ou robusta), no sentido que 
que ela não é muito afetada pelo valor discrepante (ou atípico) 67. 

Para calcular q 3 e q 3 para este novo conjunto de valores, considere-os assim 
dispostos: 


2 3 5 7 8 9 10 11 12 15 67 

de modo que q 3 = 5 e q 3 = 12. 

Obtemos, então os dados separados em 4 partes por q v q 2 e q 3 : 

2 3 (5) 7 8 (9) 10 11 (12) 15 67 

Suponha, agora, que queiramos calcular q(0,20), ou seja, aquele valor que 
deixa 20% dos dados à sua esquerda, para o conjunto original de n = 9 valores de X. 
Como 20% das observações correspondem a 1,8 observações, qual valor devemos 
tomar como q( 0, 20)? O valor 3, que é a segunda observação ordenada, ou 5, ou a 
média de 3 e 5? Se adotarmos esta última solução, então q( 0, 20) = q( 0, 25) = q v o 
que pode parecer não razoável. 

Para responder a esta questão, temos que definir quantil de uma sequência de 
valores de uma variável de modo apropriado. Isto está feito no Problema 17. 

Se os dados estiverem agrupados em classes, podemos obter os quantis usando o 
histograma. Por exemplo, para obter a mediana, sabemos que ela deve corresponder 
ao valor da abscissa que divide a área do histograma em duas partes iguais (50% para 
cada lado). Então, usando argumentos geométricos, podemos encontrar um ponto, 
satisfazendo essa propriedade. Vejamos como proceder através de um exemplo. 

Exemplo 3.6. Vamos repetir abaixo a Figura 2.7, que é o histograma da variável 
S = salário dos empregados da Companhia M B. 
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Devemos localizar o ponto das abscissas que divide o histograma ao meio. A área do 
primeiro retângulo corresponde a 28% do total, os dois primeiros a 61%; portanto, a mediana 
md é algum número situado entre 8,00 e 12,00. Ou melhor, a mediana irá corresponder ao 
valor md no segundo retângulo, cuja área do retângulo de base 8,00 h md é a mesma 
altura que o retângulo de base 8,00 h 12,00 seja 22% (28% do primeiro retângulo 
mais 22% do segundo, perfazendo os 50%). Consulte a figura para melhor compreen¬ 
são. Pela proporcionalidade entre a área e a base do retângulo, temos: 


12,00 - 8,00 _ md - 8,00 
33% 22% 


OU 


logo 


md - 8,00=ü^.4,00, 
33/o 


md = 8,00 + 2,67 = 10,67, 

que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada 
anteriormente. 

O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana, 
usando argumentos geométricos no histograma. Vejamos a determinação de alguns 
quantis, usando os dados do último exemplo. 

(a) q(0,25): Verificamos que q(0,25) deve estar na primeira classe, pois a propor¬ 
ção no primeiro retângulo é 0,28. Logo, 

g(0,25) - 4,00 _ 8,00-4,00 
25% 28% ' 


e então 


q( 0,25) =4,00 + 1; 4,00 = 7,57. 
lo 

(b) g(0,95): Analisando a soma acumulada das proporções, verificamos que este 
quantil deve pertencer à quarta classe, e que nesse retângulo devemos achar a parte 
correspondente a 12%, pois a soma acumulada até a classe anterior é 83%, faltando 
12% para atingirmos os 95%. Portanto, 

q( 0,95)- 16,00 _ 20,00 - 16,00 
12% 14% ' 
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<7(0,95) = 16,00 + x 4 = 19,43. 

(c) q(0,75): De modo análogo, concluímos que o terceiro quantil deve pertencer 
ao intervalo 12,00 h 16,00, portanto 

q(0,75) - 12,00 _ 16,00- 12,00 
14% 22% 


e 


<7(0,75) = 14,55. 

Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil, 
definida como a diferença entre o terceiro e primeiro quartis, ou seja, 

d q =q 3 -d r (3.13) 

Para o Exemplo 3.5, temos q 3 = 4, q 3 = 11,5, de modo que d q = 7,5. Para um cálculo 
mais preciso, veja o Problema 17. Lá obtemos q 1 = 4,5, q 3 = 11,25, logo d q = 6,75. 

Os quartis q(0,25) = q v q(0,5) = 92 e 9(0,75) = 93 são medidas de localização 
resistentes de uma distribuição. 

Dizemos que uma medida de localização ou dispersão é resistente quando for 
pouco afetada por mudanças de uma pequena porção dos dados. A mediana é uma 
medida resistente, ao passo que a média não o é. Para ilustrar este fato, considere as 
populações dos 30 municípios do Brasil, considerados acima. Se descartarmos Rio de 
Janeiro e São Paulo, a média das populações dos 28 municípios restantes é 100,6 e a 
mediana é 82,1. Para todos os dados, a média pasa a ser 145,4, ao passo que a mediana 
será 84,3. Note que a média aumentou bastante, influenciada que foi pelos dois valo¬ 
res maiores, que são muito discrepantes da maioria dos dados. Mas a mediana variou 
pouco. O desvio padrão também não é uma medida resistente. Verifique como este 
varia para este exemplo dos municípios. 

Os cinco valores, x (1) , q v q 2 , q 3 e x (n) são importantes para se ter uma boa idéia da 
assimetria da distribuição dos dados. Para uma distribuição simétrica ou aproximada¬ 
mente simétrica, deveríamos ter: 

(a) q 2 ~ *<D “ *<„) - q 2 ' 

(b) q 2 - q, ~ q 3 - q 2 ; 

(c) <h - *<D “ *<„) - q y 

(d) distâncias entre mediana e q v q 3 menores do que distâncias entre os extre¬ 
mos e q v q 3 . 

A diferença q 2 - x (1) é chamada dispersão inferior e x (n) - q 2 é a dispersão supe¬ 
rior. A condição (a) nos diz que estas duas dispersões devem ser aproximadamente 
iguais, para uma distribuição aproximadamente simétrica. 
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A Figura 3.1 ilustra estes fatos para a chamada distribuição normal ou gaussiana. 

Figura 3.1 : Uma distribuição simétrica: normal ou gaussiana. 



Na Figura 3.2 temos ilustradas estas cinco medidas para os n = 9 valores do 
Exemplo 3.5. 


Figura 3.2: Quantis e distâncias para o Exemplo 3.5. 


x (l) 

Si 



q 2 


q 3 


X (9) 

2 


6 

4 


3,5 

7 

3,5 




(di) - 




(ds) 




As cinco estatísticas de ordem consideradas acima podem ser representadas 
esquematicamente como na Figura 3.3, onde também incorporamos o número de ob¬ 
servações, n. Representamos a mediana por md, os quartis por q e os extremos por E. 
Podemos ir além, considerando os chamados oitavos, ou seja, o primeiro oitavo, que 
corresponde a q(0,125), o sétimo oitavo, que corresponde a q(0,875) etc. Teríamos, 
então, sete números para representar a distribuição dos dados. Em geral, podemos 
considerar as chamadas letras-resumos, descendo aos dezesseis-avos, trinta e dois- 
avos etc. Para detalhes, ver Hoaglin, Mosteller and Tukey(1983). 


Figura 3.3: Esquema dos cinco números. 



n 

md 

q 2 


q 

q, q 3 


E 

X (l) X (n) 
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Exemplo 3.7 Os aplicativos SPIus e M initab, assim como a planilha Excel, possuem 
ferramentas que geram as principais medidas descritas nesse capítulo e outras. Por 
exemplo, o comando describe do M initab, usado para as populações dos municípios 
brasileiros produz a saída do Quadro 3.1. 

Quadro 3. Medidas-resumo para o CD-Municípios. Minitab. 


MTB > Describe Cl. 
Descriptive Statistics 


Variable 

N 

Mean 

Median 

Trmean 

StDev 

SE Mean 

Cl 

30 

145.4 

84.3 

104.7 

186.6 

34.1 

Variable 

Min 

Max 

Q1 

Q3 



Cl 

46.3 

988.8 

63.5 

139.7 




Aqui, temos N = 30 dados, a média é 145,4, a mediana 84,3, o desvio padrão 186,6, 
o menor valor 46,3, o maior valor 988,8, o primeiro quartil 63,5 e o terceiro quartil 139,7. 
Além desses valores, o resumo traz a média aparada (trimmed mean) e o erro padrão da 
média, a ser tratado no Capítulo 11. Esse é dado por S/Vrí = 186,6/VIÕ = 34,1. 

O comando summary do SPIus produz a saída do Quadro 3.2 para os mesmos 
dados. Note a diferença no cálculo dos quantis q(0,25) e q(0,75). Conclui-se que é 
necessário saber como cada programa efetua o cálculo de determinada estatística, para 
poder reportá-lo. 


Quadro 3.2» Medidas-resumo para o CD-Municípios. SPIus. 


> summary (munic) 





Min. lst Qu. 

Median 

Mean 

3rd Qu. 

Max. 

46.3 64.48 

84.3 

145.4 

134.3 

988.8 


7. Obtenha o esquema dos cinco números para os dados do Problema 3. Calcule o 
intervalo interquartil e as dispersões inferior e superior. Baseado nessas medidas, verifi¬ 
que se a forma da distribuição dos dados é normal. 

8. Refaça o problema anterior, utilizando desta vez os dados do Problema 5 do Capítulo 2. 

9. Obter os três quartis, q(0,l) e q(0,90) para os dados do Problema 3. 

10. Para a variável população urbana do CD-Brasil, obtenha q(0,10), g(0,25), g(0,50), 
q(0,75),q(0,80) eq(0,95). 

3.4 Box Plots 

A informação contida no esquema dos cinco números da Figura 3.3 pode ser traduzida 
graficamente num diagrama, ilustrado na Figura 3.4, que chamaremos de box plot. 
Murteira (1993) usa o termo "caixa-de-bigodes". 
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Figura 3.4: BoxPlot. 



Para construir este diagrama, consideremos um retângulo onde estão representados a 
mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais 
remoto que não exceda LS = q 3 + (l,5)d q , chamado limite superior. De modo similar, da 
parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não 
seja menor do que LI = q 3 - (1,5 )d q , chamado limite inferior. Os valores compreendidos 
entre esses dois limites são chamados valores adjacentes. As observações que estiverem 
acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos 
exteriores e representadas por asteriscos. Essas são observações destoantes das demais e 
podem ou não ser o que chamamos de outliers ou valores atípicos. 

O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes. 
A posição central é dada pela mediana e a dispersão por d q . As posições relativas de q lf q 2 , q 3 
dão uma noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas 
linhas que vão do retângulo aos valores remotos e pelos valores atípicos. 

Exemplo 3.8 Retomemos o exemplo dos 15 maiores municípios do Brasil, ordenados 
pelas populações. Usando o procedimento do Problema 17 (veja também o Problema 18), 
obtemos q 2 = 105,7, q 2 = 135,8, q 3 = 208,6. O diagrama para os cinco números x (1) , q v 
q 2 = md, q 3 , x (15) está na Figura 3.5 abaixo. 

Figura 3.5: Esquema dos cinco núme¬ 
ros para o Exemplo 3.8. 



15 

md 

135,8 


q 

105,7 208,6 


E 

84,7 988,8 
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Temos que 


LI = q : - (1,5 )d q = 105,7 - (1,5) (102,9) = -48,7, 

LS = q 3 + (l,5)cf q = 208,6 + (1,5) (102,9) = 362,9. 

Então, as cidades com populações acima de 3.629.000 habitantes são pontos 
exteriores, ou seja, Rio de Janeiro e São Paulo. O box plot correspondente está na 
Figura 3.6. Vemos que os dados têm uma distribuição assimétrica à direita, com 13 
valores concentrados entre 80 e 230 e duas observações discrepantes, bastante afas¬ 
tadas do corpo principal dos dados. 


Figura 3.6: Box plot para os quinze maiores 
municípios do Brasil. 


1.000 - 

> 


* São Paulo 


600 

> 


* Rio de Janeiro 


240 


180 

140 


100 

80 


| Salvador 


São Gonçalo 


Do ponto de vista estatístico, um outlier pode ser produto de um erro de observa¬ 
ção ou de arredondamento. No exemplo acima, as populações de São Paulo e Rio de 
Janeiro não são outliers neste sentido, pois elas representam dois valores realmente 
muito diferentes dos demais. Daí, usarmos o nome pontos (ou valores) exteriores. 
Contudo, na prática, estas duas denominações são freqüentemente usadas com o mes¬ 
mo significado: observações fora de lugar, discrepantes ou atípicas. 

A Figura 3.7 mostra o box plot para as populações dos trinta municípios brasilei¬ 
ros, feito com o M initab. 
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Figura 3.7= Boxp/oí com Minitab. 



A justificativa para usarmos os limites acima, LI = q 1 - (l,5)c/ p e L5 = q 3 + (l,5)d g , 
para definir as observações atípicas é a seguinte: considere uma curva normal com média 
zero e, portanto, com mediana zero. É fácil verificar (veja o Capítulo 7 e Tabela III) que 
q 1 = -0,6745, q 2 = 0, q 3 = 0,6745 e portanto d q = 1,349. Segue-se que os limites são 
LI = -2,698 e LS = 2,698. A área entre estes dois valores, embaixo da curva normal, é 
0,993, ou seja, 99,3% da distribuição está entre estes dois valores. Isto é, para dados com 
uma distribuição normal, os pontos exteriores constituirão cerca de 0,7% da distri¬ 
buição. Veja a Figura 3.8. 


Figura 3.8: Área sob a curva normal entre LI e LS. 



11. Construa o boxplot para os dados do Exemplo 2.3, Capítulo 2. O que você pode con¬ 
cluir a respeito da distribuição? 

12. Refaça a questão anterior com os dados do Problema 3 deste capítulo. 

13. Faça um boxplot para o Problema 10. Comente sobre a simetria, caudas e presença de 
valores atípicos. 
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3.5 Gráficos de Simetria 

Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica 
(ou aproximadamente simétrica). 

Se um conjunto de observações for perfeitamente simétrico devemos ter 

<7(0,5) - x (() = x (n+1 _ () - 0(0,5), (3.14) 

onde / = 1, 2, ..., n/2, se n for par e / = 1, 2, ..., (n + l)/2, se n for ímpar. 

Pela relação (3.14), vemos que, se os quantis da direita estão mais afastados da mediana, 
do que os da esquerda, os dados serão assimétricos à direita. Se ocorrer o contrário, os 
dados serão assimétricos à esquerda. A Figura 3.9 ilustra essas duas situações. 


Figura 3.9: Distribuições assimétricas. 



Para os dados do Exemplo 3.8, vemos que as observações são assimétricas à direita. Em 
geral, esse tipo de situação ocorre com dados positivos. 

Podemos fazer um gráfico de simetria, usando a identidade (3.14). Chamando de 
u. o primeiro membro e de v. o segundo membro, fazendo-se um gráfico cartesiano, 
com os u/s como abscissas e os vç's como ordenadas, se os dados forem aproximada¬ 
mente simétricos, os pares (u., v.) estarão dispersos ao redor da reta v = u. 

Exemplo 3.9 Considere os dados que, dispostos em ordem crescente, ficam represen¬ 
tados no eixo real como na Figura 3.10. 


Figura 3.10: Dados aproximadamente simétricos. 


0 


5 



10 



15 

x (l) 

X (2) 

X (3) 

X (4) 

X (5> 

X (6> 

X (7) 

X (8) 

X (9) 

0,5 

2,3 

4,0 

6,4 

8,0 

9,8 

12,0 

13,5 

15,3 


Esses dados são aproximadamente simétricos, pois como q 2 = 8, u =q 2 - x (f) , v. = x (n +1 _ f) - q 2 , 
teremos: 

Ui = 8,0 - 0,5 = 7,5, v 1 = 15,3 - 8,0 = 7,3, 

u 2 = 8,0 - 2,3 = 5,7, v 2 = 13,5 - 8,0 = 5,5, 

u 3 = 8,0 - 4,0 = 4,0, v 3 = 12,0 - 8,0 = 4,0, 

u 4 = 8,0 - 6,4 = 1,6, v 4 = 9,8 - 8,0 = 1,8. 
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A Figura 3.11 mostra o gráfico de simetria para as populações dos trinta municípios 
do Brasil. Vemos que a maioria dos pontos estão acima da reta v = u, mostrando a 
assimetria à direita da distribuição dos valores. Nessa figura, vemos destacados os 
pontos correspondentes a Rio de Janeiro e São Paulo. 


Figura 3.11: Gráfico de simetria para o CD-Municípios. 



3.6 Transformações 

Vários procedimentos estatísticos são baseados na suposição de que os dados pro¬ 
vêm de uma distribuição normal (em forma de sino) ou então mais ou menos simétri¬ 
ca. Mas, em muitas situações de interesse prático, a distribuição dos dados da amostra 
é assimétrica e pode conter valores atípicos, como vimos em exemplos anteriores. 

Se quisermos utilizar tais procedimentos, o que se propõe é efetuar uma transfor¬ 
mação das observações, de modo a se obter uma distribuição mais simétrica e próxima 
da normal. Uma família de transformações freqüentemente utilizada é 


x (p) 


x p , se p > 0 

< €n(x), se p = 0 

-x p , se p < 0. 


Normalmente, o que se faz é experimentar valores de p na seqüência 


(3.15) 


... , -3, -2, -1, - 1/2, - 1/3, - 1/4, 0, 1/4, 1/3, 1/2, 1, 2, 3, ... 


e para cada valor de p obtemos gráficos apropriados (histogramas, desenhos esquemáticos etc.) 
para os dados originais e transformados, de modo a escolhermos o valor mais adequado de p. 

Vimos que, para dados positivos, a distribuição dos dados é usualmente assimétrica à 
direita. Para essas distribuições, a transformação acima com 0 < p < 1 é apropriada, pois 
valores grandes de x decrescem mais, relativamente a valores pequenos. Para distribuições 
assimétricas à esquerda, tome p > 1. 
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Exemplo 3.10. Consideremos os dados das populações do CD-M unicípios e tomemos 
alguns valores de p: 0, 1/4, 1/3, 1/2. Na Figura 3.12 temos os histogramas para os 
dados transformados e, na Figura 3.13, os respectivos box plots. Vemos que p = 0 
(transformação logarítmica) e p = 1/3 (transformação raiz cúbica) fornecem distribui¬ 
ções mais próximas de uma distribuição simétrica. 


Figura 3.12; Histogramas para os dados transformados. CD-Municípios. 



Figura 3.13: Box plots para os dados transfor¬ 
mados. CD-Municípios. SPlus. 
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3.7 Exemplos Computacionais 

Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas 
com as técnicas aprendidas neste capítulo. 

Exemplo 2.10. (continuação) Aqui temos as notas em Estatística de 100 alunos de Eco¬ 
nomia. Temos no Quadro 3.3 as principais medidas-resumo desse conjunto de dados, 
fornecidas pelo comando describe do Minitab. 

Quadro 3.3 Medidas descritivas para o CD-Notas. Minitab. 


Descriptive Statistics 


Variable 

N 

Mean 

Median 

Trmean 

StDev 

SE Mean 

Cl 

100 

5.925 

6.000 

5.911 

1.812 

0.181 

Variable 

Min 

Max 

Q1 

Q3 



Cl 

1.500 

10.000 

4.625 

7.375 




Vemos, por exemplo, que q 1 = 4,625, q 2 = 6,000 e q 3 = 7,375 e, portanto, d q =q 3 - q 1 
= 2,75. O desvio padrão é dp = 1,812. Vimos que a distribuição das notas é razoavel¬ 
mente simétrica, não havendo valores atípicos, o que é confirmado pelo box plot da 
Figura 3.14. 



O gráfico de simetria está na Figura 3.15, mostrando também a reta u =v. Note que 
os pontos dispõem-se ao redor da reta, estando vários deles sobre ela, indicando a 
quase-simetria dos dados. Deveríamos ter 50 pontos no gráfico, mas há vários pares 
(u h V/) repetidos. 
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Figura 3.15: Gráfico de simetria para o CD-Notas. 



Exemplo 2.11. (continuação) Os dados de temperatura (diários) na cidade de São 
Paulo, no período considerado, são ligeiramente assimétricos à esquerda. O comando 
summary do SPIus fornece as medidas descritivas do Quadro 3.4. Note que o M initab 
fornece mais informações que o SPIus por meio desses comandos. 


Quadro 3.4. Medidas descritivas para temperaturas. SPIus. 


> summary (temp) 





Min. lst Qu. 

Median 

Mean 

3rd Qu. 

Max. 

12.3 16 

17.7 

17.22 

18.6 

21 


Temos, por exemplo, q 1 = 16, q 2 = 17,7 eq 3 = 18,6. A amplitude amostrai éx {n) - x (1) = 8,7 
e a distância interquartil é d q = 2,6. O box ptot está na Figura 3.16, que mostra a assimetria. 
Não há valores atípicos. 

Figura 3.16: Box plot para as temperaturas de São Paulo. 

CD-Poluição. SPIus. 
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No gráfico de simetria na Figura 3.17, todos os pontos estão abaixo da reta u = v, 
mostrando que u. > v., para todo /' = 1, 2, 60, ou seja, as distâncias da mediana aos 

quantis inferiores são maiores do que as distâncias dos quantis superiores à mediana, 
indicando que a distribuição das observações é assimétrica à esquerda. 


Figura 3.17: Gráfico de simetria para as temperaturas 
de São Paulo. CD-Poluição. 



3.8 Problemas e Complementos 

14. Mostre que: 

(a) £(x.~ x) =0 
/= 1 

(b) I(x r x) 2 = Éx 2 -nx 2 = íx 2 --^- 2 

/ = 1 ' i = 1 1 i = 1 1 n 

k k 

(c) 2>,(x,.- x) 2 = Zn,xj- nx 2 

Í=1 i=1 

(d) Xfjx - x) 2 =lf,x 2 - X 2 

15. Usando os resultados da questão anterior, calcule as variâncias dos Problemas 1 e 2 
deste capítulo. 

16. Os dados abaixo representam as vendas semanais, em classes de salários mínimos, de 
vendedores de gêneros alimentícios: 
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Vendas semanais 

N e de vendedores 

301-35 

2 

351-40 

10 

401-45 

18 

451-50 

50 

501-55 

70 

551-60 

30 

601-65 

18 

651-70 

2 


(a) Faça o histograma das observações. 

(b) Calcule a média da amostra, X. 

(c) Calcule o desvio padrão da amostra, S. 

(d) Qual a porcentagem das observações compreendidas entre X- 2seX + 2s? 

(e) Calcule a mediana. 


17. Quantis. Para calcular os quantis de uma sequência de valores de uma variável X pode¬ 
ríamos usar a função de distribuição acumulada ou empírica, definida no Problema 1 7 
do Capítulo 2. Essa função fornece, para cada número real X, a proporção das observa¬ 
ções menores ou iguais a X. No Exemplo 3.5, temos 


0 , 

se 

x < 

2 

1/9, 

se 

2 t 

x < 3 

2/9, 

se 

3 s: 

x < 5 

3/9, 

se 

5 s: 

x < 7 

4/9, 

se 

7 

x < 8 

5/9, 

se 

8 

x < 10 

6/9, 

se 

10 x < 11 

7/9, 

se 

11 X < 12 

8/9, 

se 

12 x < 15 

1 , 

se 

X & 

15. 


O gráfico de F e (x) está na Figura 3.18. Note que não há nenhum valor de X tal queF e (x) =0,5 
e F e (2) = 1/9, F e (3) =2/9,.... F e (15) = 1, ou seja, podemos escrever de modo geral 

Fe(x m )=jr,i= 1,2.9. (3.17) 

9 

Em particular, F e (md) =F(x (5) ) =F e (8) =5/9 =0,556. Portanto, ou mudamos nossa definição 
de mediana, ou F e (.) não pode ser usada para definir precisamente mediana ou, em geral, 
um quantil q(p). 
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Figura 3. 1 8: Funções de distribuição empírica (Fj e f.d.e. alisada (F e ) para o Exemplo 3.5. 



Mas vejamos que F e C) pode ser a base para tal definição. Considere "alisar ou 
"suavizar" F e (-), como feito na Figura 3.18, de modo a obter uma curva contínua F e (x), 
que passa pelos pontos (x (j) , p), onde 

p,= HP’/ =1, 2 . 9 ' (3,18) 

Observe que 0 < p : < 1/9, 1/9 < p 2 < 2/9 etc. Com esse procedimento, notamos que 


F e (x {1] ) = 1/18. F e (x (5) ) = 9/18 = 0,5. F e (x (9) ) = 17/18, 


ou seja, podemos escrever 


F~(x (/) ) = / =i, 2. n, 


n 


(3.19) 
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sendo que no nosso caso n = 9. Com essa modificação, obtemos que F e (md) =F e ( 8) = 
0,5, e para cada p, 0 < p < 1, podemos obter de modo unívoco o quantil g(p), tomando- 
se a função inversa F^(p). Ou seja, considere uma reta horizontal passando por p no 
eixo das ordenadas, até encontrar a curva contínua e depois baixe uma reta vertical até 
encontrar q(p) no eixo das abscissas. 

Uma maneira equivalente de proceder nos leva à seguinte definição para calcu¬ 
lar q(p), para qualquer p, 0 < p < 1. 

Definição, O p-quantil é definido por 


g(p) = 


x (i)' 

sep =p, = - 

d- f/)x (( ) + f / x ((+ i), 

sep, <p <p 

X (D’ 

se p < p 1 

- X (n)’ 

sep >p n , 


,/’=!, 2, ..., n 


onde f. = 


(p-p) 
(P/ + i - P/)' 


Notamos, então, que se p coincidir com a proporção p j( o quantil será a i-ésima 
observação, x (i) . Se p j < p < p j + 1 , o quantil estará no segmento de reta que une (p ( ., x (í) ) 
e (p i + 1 , x (( + 1) ). De fato, a reta passando por (p,, x (i) ) e (p, q(p)) é 


Q (P) - x {i) 


x u + d - x (/> 

P/ + i - P/ 


(P - P,i 


Exemplo 3.5. (continuação) Usando a definição obtemos: 

£7(0,1) = (0,6)x (1) + (0,4)x (2) = (0,6)(2) + (0,4)(3) = 2,4; 

£7(0,2) = (0,7)x (2) + (0,3)x (3) = (0,7)(3) + (0,3)(5) = 3,6; 
q( 0,25) = (0,25)x (2) + 0,75x (3) = 4,5; 

£7(0,5) =x (5) = 8; 

£7(0,75) = (0,75)x (7) + (0,25)x (S) = (0,75)(11) + (0,25)(12) = 11,25. 


1 8. Considere o CD-Municípios e tome somente os 15 maiores, relativamente à sua popula¬ 
ção. Calcule q( 0, 1), q( 0, 2), q v q v q r 







60 


CAPITULO 3 — MEDIDAS-RESUMO 


19. O número de divórcios na cidade, de acordo com a duração do casamento, está 
representado na tabela abaixo. 

(a) Qual a duração média dos casamentos? E a mediana? 

(b) Encontre a variância e o desvio padrão da duração dos casamentos. 

(c) Construa o histograma da distribuição. 

(d) Encontre o I a e o 9 a decis. 

(e) Qual o intervalo interquantil? 


Anos de casamento 

N s de divórcios 

01- 6 

2.800 

61- 12 

1.400 

121- 18 

600 

181-24 

150 

241-30 

50 


20. O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 
funcionários do setor administrativo, obtendo os resultados (em salários mínimos) da 
tabela abaixo. 

(a) Esboce o histograma correspondente. 

(b) Calcule a média, a variância e o desvio padrão. 

(c) Calcule o I a quartil e a mediana. 


Faixa salarial 

Freqüência relativa 

01- 2 

0,25 

2 \— 4 

0,40 

41— 6 

0,20 

6h- 10 

0,15 


(d) Se for concedido um aumento de 100% para todos os 120 funcionários, haverá 
alteração na média? E na variância? Justifique sua resposta. 

(e) Se for concedido um abono de dois salários mínimos para todos os 120 funcionários, 
haverá alteração na média? E na variância? E na mediana? Justifique sua resposta. 

21.0 que acontece com a mediana, a média e o desvio padrão de uma série de dados 
quando: 

(a) cada observação é multiplicada por 2? 

(b) soma-se 10 a cada observação? 

(c) subtrai-se a média geral X de cada observação? 

(d) de cada observação subtrai-se Xe divide-se pelo desvio padrão dp(x)? 
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22. Na companhia A, a média dos salários é 10.000 unidades e o 3 a quartil é 5.000. 

(a) Se você se apresentasse como candidato a funcionário nessa firma e se o seu 
salário fosse escolhido ao acaso entre todos os possíveis salários, o que seria mais 
provável: ganhar mais ou menos que 5.000 unidades? 

(b) Suponha que na companhia B a média dos salários seja 7.000 unidades, a variância 
praticamente zero e o salário também seja escolhido ao acaso. Em qual companhia 
você se apresentaria para procurar emprego? 

23. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora 
de Leite Teco, e isso será feito por meio de uma amostra. Para determinar que tamanho 
deverá ter essa amostra, foi colhida uma amostra-piloto. As idades observadas foram: 42, 
35, 27, 21, 55, 18, 27, 30, 21, 24. 

(a) Determine as medidas descritivas dos dados que você conhece. 

(b) Qual dessas medidas você acredita que será a mais importante para julgar o tama¬ 
nho final da amostra? Por quê? 

24. Estudando-se o consumo diário de leite, verificou-se que, em certa região, 20% das famílias 
consomem até um litro, 50% consomem entre um e dois litros, 20% consomem entre dois e três 
litros e o restante consome entre três e cinco litros. Para a variável em estudo: 

(a) Escreva as informações acima na forma de uma tabela de freqüências. 

(b) Construa o histograma. 

(c) Calcule a média e a mediana. 

(d) Calcule a variância e o desvio padrão. 

(e) Qual o valor do l fi quartil? 

25. A distribuição de freqüências do salário anual dos moradores do bairro A que têm algu¬ 
ma forma de rendimento é apresentada na tabela abaixo: 


Faixa salarial 
(x 10 salários mínimos) 

Freqüência 

01— 2 

10.000 

2 h- 4 

3.900 

41— 6 

2.000 

61- 8 

1.100 

81- 10 

800 

101- 12 

700 

121- 14 

2.000 

Total 

20.500 


(a) Construa um histograma da distribuição. 

(b) Qual a média e o desvio padrão da variável salário? 

(c) O bairro B apresenta, para a mesma variável, uma média de 7,2 e um desvio padrão 
de 15,1. Em qual dos bairros a população é mais homogênea quanto à renda? 

(d) Construa a função de distribuição acumulada e determine qual a faixa salarial dos 
10% mais ricos da população do bairro. 

(e) Qual a "riqueza total" dos moradores do bairro? 
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26. Dado o histograma abaixo, calcular a média, a variância, a moda, a mediana e o I a 
quartil. 


30% 



27. Em uma granja foi observada a distribuição dos frangos em relação ao peso, que era 
a seguinte: 


Peso (gramas) 

n > 

960 h- 980 

60 

980 K 1.000 

160 

1.0001-1.020 

280 

1.0201-1.040 

260 

1.0401-1.060 

160 

1.0601-1.080 

80 


(a) Qual a média da distribuição? 

(b) Qual a variância da distribuição? 

(c) Construa o histograma. 

(d) Queremos dividir os frangos em quatro categorias, em relação ao peso, de modo que: 

— os 20% mais leves sejam da categoria D; 

— os 30% seguintes sejam da categoria C; 

— os 30% seguintes sejam da categoria B; 

— os 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A. 

Quais os limites de peso entre as categorias A, B, C e D ? 

(e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios 
padrões abaixo da média para receberem ração reforçada, e também separar os 
animais com peso superior a um e meio desvio padrão acima da média para usá-los 
como reprodutores. 

Qual a porcentagem de animais que serão separados em cada caso? 

28. A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi 
baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as 
idades, decidiu-se fazer uma campanha de divulgação. Para se verificar se a campanha 
foi ou não eficiente, fez-se um levantamento da idade dos candidatos à última promoção, 
e os resultados estão na tabela a seguir. 
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Idade 

Freqüência 

Porcentagem 

181-20 

18 

36 

201— 22 

12 

24 

221— 26 

10 

20 

261— 30 

8 

16 

301-36 

2 

4 

Total 

50 

100 


(a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito 
(isto é, aumentou a idade média)? 

(b) Um outro pesquisador decidiu usara seguinte regra: se a diferença X- 22 fosse maior 
que o valor 2dp(X )/Vn", então a campanha teria surtido efeito. Qual a conclusão dele, 
baseada nos dados? 

(c) Faça o histograma da distribuição. 

29. Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada 
uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada, 
computou-se a porcentagem de lucro apresentada durante um período fixado de tempo. 
Os dados estão a seguir. 


Corretora A 


45 

60 

54 

62 

55 

70 

38 

48 

64 

55 

56 

55 

54 

59 

48 

65 

55 

60 


Corretora B 


57 

55 

58 

50 

52 

59 

59 

55 

56 

61 

52 

53 

57 

57 

50 

55 

58 

54 

59 

51 

56 


Que tipo de informação revelam esses dados? (Sugestão: use a análise proposta nas 
Seções 3.3 e 3.4.) 

30. Para verificar a homogeneidade das duas populações do problema anterior, um esta¬ 
tístico sugeriu que se usasse o quociente F = 1 mas não disse qual decisão 

tomar baseado nesse valor. Que regra de decisão você adotaria para dizer se são 
homogêneas ou não (var(X/A) = variância de X, para a corretora A; X = % 
de lucro)? 

31. Faça um desenho esquemático (boxplof) para os dados da corretora A e um para os 
dados da corretora B. Compare os dois conjuntos de dados por meio desses desenhos. 

32. Para decidir se o desempenho das duas corretoras do exercício 29 são semelhantes ou 
não, adotou-se o seguinte teste: sejam 


t = - 


x A - x B (- 2 _ (n A -1) var(X/A) +(n e - l)var(X/B) 
SjN1 ln A +1 ln B ' n A +n B - 2 
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Caso f | < 2, os desempenhos são semelhantes, caso contrário, são diferentes. Qual seria 
a sua conclusão? Aqui, n A éo número de ações selecionadas da corretora A e nomencla¬ 
tura análoga para n B . 

33. Um órgão do governo do estado está interessado em determinar padrões sobre o investi¬ 
mento em educação, por habitante, realizado pelas prefeituras. De um levantamento de 
dez cidades, foram obtidos os valores (codificados) da tabela abaixo: 


Cidade 

A 

B 

C 

D 

E 

F 

G 

H 

1 

J 

Investimento 

20 

16 

14 

8 

19 

15 

14 

16 

19 

18 


Nesse caso, será considerado como investimento básico a média final das observações, cal¬ 
culada da seguinte maneira: 

1. Obtém-se uma média inicial. 

2. Eliminam-se do conjunto aquelas observações que forem superiores à média inicial 
mais duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o 
desvio padrão. 

3. Calcula-se a média final com o novo conjunto de observações. 

Qual o investimento básico que você daria como resposta? 

Observação: O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade 
cujo investimento é muito diferente dos demais. 

34. Estudando-se a distribuição das idades dos funcionários de duas repartições públicas, 
obtiveram-se algumas medidas que estão no quadro abaixo. Esboce o histograma alisa¬ 
do das duas distribuições, indicando nele as medidas descritas no quadro. Comente as 
principais diferenças entre os dois histogramas. 


Repartição 

Mínimo 

I a Quartil 

Mediana 

Média 

3 a Quartil 

Máximo 

dp 

A 

18 

27 

33 

33 

39 

48 

5 

B 

18 

23 

32 

33 

42 

48 

10 


35. Decidiu-se investigar a distribuição dos profissionais com nível universitário em duas 
regiões, A e B. As informações pertinentes foram obtidas e encontram-se no quadro 
abaixo, expressas em salários mínimos. Esboce a distribuição (histograma alisado) dos 
salários de cada região, indicando no gráfico as medidas apresentadas no quadro. 
Faça também uma descrição rápida das principais diferenças observadas nos gráficos. 


Região 

Média 

dp 

Mediana 

Moda 

Q i 

<73 

*a» 

X (n) 

A 

20,00 

4,00 

20,32 

20,15 

17,32 

22,68 

8,00 

32,00 

B 

20,00 

6,00 

18,00 

17,00 

16,00 

24,00 

14,00 

42,00 
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36. Construa o desenho esquemático para os dados do Problema 6, do Capítulo 2. Obtenha 
conclusões a respeito da distribuição, a partir desse desenho. 

37. Usando os dados da variável qualitativa região de procedência, da Tabela 2.1, transforme-a 
na variável quantitativa X, definida do seguinte modo: 

X _ 11, se a região de procedência for capital; 

lO, se a região de procedência for interior ou outra. 

(a) Calcule Xe var(X). 

(b) Qual a interpretação de X? 

(c) Construa um histograma para X. 

38. No Problema 9, do Capítulo 2, temos os resultados de 25 funcionários em vários exames 
a que se submeteram. Sabe-se agora que os critérios adotados em cada exame não são 
comparáveis, por isso decidiu-se usar o desempenho relativo em cada exame. Essa medida 
será obtida do seguinte modo: 

(I) Para cada exame serão calculados a média Xe o desvio padrão dp(X). 

(II) A nota X de cada aluno será padronizada do seguinte modo: 

7 _ X - X 
' dp(X) ■ 

(a) Interprete o significado de Z. 

(b) Calcule as notas padronizadas dos funcionários para o exame de Estatística. 

(c) Com os resultados obtidos em (b), calcule Ze dp(Z). 

(d) Se alguma das notas padronizadas estiver acima de 2dp(Z) ou abaixo de -2dp(Z), 
esse funcionário deve ser considerado um caso atípico. Existe algum nessa situação? 

(e) O funcionário 1 obteve 9,0 em Direito, em Estatística e em Política. Em que disciplina 
o seu desempenho relativo foi melhor? 

39. Média aparada. Se 0 < a < 1, uma média aparada a 100a% é obtida eliminando 
I00a% das menores observações e 100a% das maiores observações e calculando-se 
a média aritmética das restantes. Por exemplo, se tivermos 10 observações ordenadas 
X(D <x (2) <.. . <x (10) , a média aparada a 10% é 

7(0,10) = X|2|+X(3)+ - +X(9) 

8 

Se a = 0,25, X(0,25) é chamada meia-média. 

Calcule a média aparada a 10% e 25% para os dados de salários da Tabela 2.1. 

40. Coeficiente de variação. Como vimos na seção 3.3, o desvio padrão é bastante afetado 
pela magnitude dos dados, ou seja, ele não é uma medida resistente. Se quisermos 
comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de 
variação, que é definido como a razão entre o desvio padrão, S, e a média amostrai e 
usualmente expresso em porcentagem: 

CV = 4 100%. 

x 
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Calcule o coeficiente de variação para as regiões A e B e do Problema 35 e comente o 
resultado. 

41. Desvio absoluto mediano. Esta é uma medida de dispersão dos dados x v ...,X n , definida por: 

dam = med lsj5 Jx- med 1<s(<n (x f ) |. 

Ou seja, calculamos a mediana dos dados, depois os desvios absolutos dos dados em 
relação à mediana e, finalmente, a mediana desses desvios absolutos. Vamos considerar os 
dados abaixo, extraídos de Graedel e Kleiner (1985) e que representam velocidades do 
vento no aeroporto de Philadelphia (EUA) para os primeiros 15 dias de dezembro de 1974. 
Vemos que há uma observação muito diferente das demais (61,1), mas que representa um 
dado real: no dia 2 de dezembro houve uma tempestade forte com chuva e vento. 


22,2 

61,1 

13,0 

27,8 

22,2 

7,4 

7,4 

7,4 

20,4 

20,4 

20,4 

11,1 

13,0 

7,4 

14,8 


Calculando-se as medidas de posição e dispersão estudadas, obtemos: 

x = 18,4, x(0,20) = 15,8; 
md = 14,8, q 1 = 8,3, q 3 = 21,8; 
d q = 14,8, dam = 7,4, dp(X) = 13,5. 

Observemos que, retirando-se o valor atípico 61,1, a média passa a ser 15,3 e o desvio 
padrão 6,8, valor este mais próximo do dam. 

42. Calcule o desvio absoluto mediano para as populações do CD-Brasil. 

43. Calcule as principais medidas de posição e dispersão (incluindo a média aparada e o 
dam) para: 

(a) variável CO no CD-Poluição; 

(b) salários de mecânicos, CD-Salários; e 

(c) variável preço, CD-Veículos. 

44. Construa os histogramas, ramo-e-folhas e desenhos esquemáticos para as variáveis do 
problema anterior. 

45. Faça um gráfico de quantis e um de simetria para os dados do Problema 3. Os dados são 
simétricos? Comente. 

46. Para o CD-Temperaturas e para a variável temperatura de Ubatuba, obtenha um gráfico de 
quantis e um gráfico de simetria. Os dados são simétricos? Comente. 

47.0 histograma dá uma idéia de como é a verdadeira densidade de freqüências da população da 
qual os dados foram selecionados. Suponha que tenhamos o histograma da figura abaixo e 
que a curva suave seja a verdadeira densidade populacional desconhecida. 
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Considere as distâncias entre o histograma e a densidade. Suponha que queiramos 
determinar a amplitude de classe A do histograma de modo a minimizar a maior distân¬ 
cia (em valor absoluto). Freedman e Diaconis (1981) mostraram que o valor de A é 
dado aproximadamente por 

A = 1,349S 

em queS é um estimador robusto do desvio padrão populacional. Por exemplo, podemos 
tomar 


5 = 


d q 

1,349' 


em que d q -q 3 - q 1 é a distância interquartil, devido ao fato de, numa distribuição norma 
d = 1, 349<7, sendo o o o desvio padrão. Segue-se que A é dado por 


A =d q 



Usando esse resultado, o número de classes a considerar num histograma é obtido 

• j (^(n) “ X(l)) 

por meio de —_-LL . 

A 

48. Use o problema anterior para construir histogramas para: 

(a) variável umid (umidade) do CD-Poluição; 

(b) variável salário dos professores do CD-Salários; e 

(c) a temperatura de Cananéia, do CD-Temperaturas. 



























Capítulo 4 


Análise Bidimensional 


4.1 Introdução 

Até agora vimos como organizar e resumir informações pertinentes a uma única 
variável (ou a um conjunto de dados), mas freqüentemente estamos interessados em 
analisar o comportamento conjunto de duas ou mais variáveis aleatórias. Os dados apa¬ 
recem na forma de uma matriz, usualmente com as colunas indicando as variáveis e as 
linhas os indivíduos (ou elementos). A Tabela 4.1 mostra a notação de uma matriz com 
p variáveis X v X 2 , ..., X p e n indivíduos, totalizando np dados. A Tabela 2.1, com os 
dados hipotéticos da Companhia M B, é uma ilustração numérica de uma matriz 36 x 7. 

O principal objetivo das análises nessa situação é explorar relações (similaridades) 
entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma 
variável que estudamos, a distribuição conjunta das freqüências será um instrumento 
poderoso para a compreensão do comportamento dos dados. 

Neste capítulo iremos nos deter no caso de duas variáveis ou dois conjuntos de 
dados. Na seção 4.8 daremos dois exemplos do caso de três variáveis. 


Tabela 4.1: Tabela de dados. 


Indivíduo 

Variável 

x, 

x, 


X. 

1 


X 

p 

1 

X n 

X u 


x v 


Xi p 

2 

X 2 i 

%22 


X V 


X 2 p 

/ 

Xn 

X/2 


X ü 


Xip 

n 

Xfil 

X„2 




X„p 


Em algumas situações, podemos ter dois (ou mais) conjuntos de dados provenientes da 
observação da mesma variável. Por exemplo, podemos ter um conjunto de dados {x 1( ..., x n }, 
que são as temperaturas na cidade A, durante n meses, e outro conjunto de dados {y v ..., yj, 
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que são as temperaturas da cidade B, nos mesmos meses. Para efeito de análise, podemos 
considerar que o primeiro conjunto são observações da variável X: temperatura na cidade A, 
enquanto o segundo conjunto são observações da variável Y: temperatura na cidade B. Este 
é o caso do CD-Temperaturas. Também poderíamos usar uma variável X para indicar a 
temperatura e outra variável, L, para indicar se a observação pertence à região A ou B. Na 
Tabela 2.1 podemos estar interessados em comparar os salários dos casados e solteiros. Uma 
reordenação dos dados poderia colocar os casados nas primeiras posições e os solteiros nas 
últimas, e nosso objetivo passaria a ser comparar, na coluna de salários (variável S), o compor¬ 
tamento de S na parte superior com a inferior. A escolha da apresentação de um ou outro modo 
será ditada principal mente pelo interesse e técnicas de análise à disposição do pesquisador. 

No CD-Brasil temos cinco variáveis: superfície, população urbana, rural e total e densi¬ 
dade populacional. No CD-Poluição temos quatro variáveis: quantidade de monóxido de 
carbono, ozônio, temperatura do ar e umidade relativa do ar. 

Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter 
três situações: 

(a) as duas variáveis são qualitativas; 

(b) as duas variáveis são quantitativas; e 

(c) uma variável é qualitativa e outra é quantitativa. 

As técnicas de análise de dados nas três situações são diferentes. Quando as variá¬ 
veis são qualitativas, os dados são resumidos em tabelas de dupla entrada (ou de 
contingência ), onde aparecerão as freqüências absolutas ou contagens de indivíduos 
que pertencem simultaneamente a categorias de uma e outra variável. Quando as duas 
variáveis são quantitativas, as observações são provenientes de mensurações, e técni¬ 
cas como gráficos de dispersão ou de quantis são apropriadas. Quando temos uma 
variável qualitativa e outra quantitativa, em geral analisamos o que acontece com a variável 
quantitativa quando os dados são categorizados de acordo com os diversos atributos 
da variável qualitativa. Mas podemos ter também o caso de duas variáveis quantitati¬ 
vas agrupadas em classes. Por exemplo, podemos querer analisar a associação entre 
renda e consumo de certo número de famílias e, para isso, agrupamos as famílias em 
classes de rendas e classes de consumo. Desse modo, recaímos novamente numa tabe¬ 
la de dupla entrada. 

Contudo, em todas as situações, o objetivo é encontrar as possíveis relações ou 
associações entre as duas variáveis. Essas relações podem ser detectadas por meio de 
métodos gráficos e medidas numéricas. Para efeitos práticos (e a razão ficará mais clara 
após o estudo de probabilidades), iremos entender a existência de associação como a 
mudança de opinião sobre o comportamento de uma variável na presença ou não de 
informação sobre a segunda variável. Ilustrando: existe relação entre a altura de pessoas 
e o sexo (homem ou mulher) em dada comunidade? Pode-se fazer uma primeira pergunta: 
qual a freqüência esperada de uma pessoa dessa população ter, digamos, mais de 170 cm 
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de altura? E também uma segunda: qual a freqüência esperada de uma mulher (ou ho¬ 
mem) ter mais de 170 cm de altura? Se a resposta para as duas perguntas for a mesma, 
diríamos que não há associação entre as variáveis altura e sexo. Porém, se as respostas 
forem diferentes, isso significa uma provável associação, e devemos incorporar esse 
conhecimento para melhorar o entendimento sobre os comportamentos das variáveis. 
No exemplo em questão, você acha que existe associação entre as variáveis? 

4.2 Variáveis Qualitativas 

Para ilustrar o tipo de análise, consideremos o exemplo a seguir. 

Exemplo 4.1. Suponha que queiramos analisar o comportamento conjunto das variá¬ 
veis Y: grau de instrução e 1/: região de procedência, cujas observações estão contidas 
na Tabela 2.1. A distribuição de freqüências é representada por uma tabela de dupla 
entrada e está na Tabela 4.2. 

Cada elemento do corpo da tabela dá a freqüência observada das realizações si¬ 
multâneas de Y e 1/. Assim, observamos quatro indivíduos da capital com ensino funda¬ 
mental, sete do interior com ensino médio etc. 

A linha dos totais fornece a distribuição da variável Y, ao passo que a coluna dos 
totais fornece a distribuição da variável V. As distribuições assim obtidas são chamadas 
tecnicamente de distribuições marginais, enquanto a Tabela 4.2 constitui a distribui¬ 
ção conjunta deY eV. 


Tabela 4.2: Distribuição conjunta das freqüências das variáveis grau de instrução (Y) e região de 
procedência (V). 



Ensino 

Fundamental 

Ensino Médio 

Superior 

Total 

Capital 

4 

5 

2 

11 

Interior 

3 

7 

2 

12 

Outra 

5 

6 

2 

13 

Total 

12 

18 

6 

36 


Fonte: Tobelo 2.1 


Em vez de trabalharmos com as freqüências absolutas, podemos construir tabelas 
com as freqüências relativas (proporções), como foi feito no caso unidimensional. 
Mas aqui existem três possibilidades de expressarmos a proporção de cada caseia: 

(a) em relação ao total geral; 

(b) em relação ao total de cada linha; 

(c) ou em relação ao total de cada coluna. 

De acordo com o objetivo do problema em estudo, uma delas será a mais conveniente. 
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A Tabela 4.3 apresenta a distribuição conjunta das freqüências relativas, expressas 
como proporções do total geral. Podemos, então, afirmar que 11% dos empregados vêm 
da capital e têm o ensino fundamental. Os totais nas margens fornecem as distribuições 
unidimensionais de cada uma das variáveis. Por exemplo, 31% dos indivíduos vêm da 
capital, 33% do interior e 36% de outras regiões. Observe que, devido ao problema de 
aproximação das divisões, a distribuição das proporções introduz algumas diferenças não 
existentes. Compare, por exemplo, as colunas de instrução superior nas Tabelas 4.2 e 4.3. 

A Tabela 4.4 apresenta a distribuição das proporções em relação ao total das colunas. 
Podemos dizer que, entre os empregados com instrução até o ensino fundamental, 33% 
vêm da capital, ao passo que entre os empregados com ensino médio, 28% vêm da 
capital. Esse tipo de tabela serve para comparar a distribuição da procedência dos 
indivíduos conforme o grau de instrução. 


Tabela 4.3: Distribuição conjunta das proporções (em porcentagem) em 
relação ao total geral das variáveis Y e V definidas no texto. 


Y 

V 

Fundamental 

Médio 

Superior 

Total 

Capital 

11% 

14% 

6% 

31% 

Interior 

8% 

19% 

6% 

33% 

Outra 

14% 

17% 

5% 

36% 

Total 

33% 

50% 

17% 

100% 


Fonte: Tabela 4.2. 


Tabela 4.4: Distribuição conjunta das proporções (em porcentagem) em 
relação aos totais de cada coluna das variáveis Y e V definidas 
no texto. 


Y 

V 

Fundamental 

Médio 

Superior 

Total 

Capital 

33% 

28% 

33% 

31% 

Interior 

25% 

39% 

33% 

33% 

Outra 

42% 

33% 

34% 

36% 

Total 

100% 

100% 

100% 

100% 


Fonte: Tabela 4.2. 


De modo análogo, podemos construir a distribuição das proporções em relação ao 
total das linhas. Aconselhamos o leitor a construir essa tabela. 

A comparação entre as duas variáveis também pode ser feita utilizando-se repre¬ 
sentações gráficas. Na Figura 4.1 apresentamos uma possível representação para os 
dados da Tabela 4.4. 
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Figura 4.1 Distribuição da região de procedência por grau de instrução. 




Capital 


Interior 



1. Usando os dados da Tabela 2.1, Capítulo 2: 

(a) Construa a distribuição de freqüência conjunta para as variáveis grau de instrução e 
região de procedência. 

(b) Qual a porcentagem de funcionários que têm o ensino médio? 

(c) Qual a porcentagem daqueles que têm o ensino médio e são do interior? 

(d) Dentre os funcionários do interior, quantos por cento têm o ensino médio? 

2. No problema anterior, sorteando um funcionário ao acaso entre os 36: 

(a) Qual será provavelmente o seu grau de instrução? 

(b) E sua região de procedência? 

(c) Qual a probabilidade do sorteado ter nível superior? 

(d) Sabendo que o sorteado é do interior, qual a probabilidade de ele possuir nível superior? 

(e) Sabendo que o escolhido é da capital, qual a probabilidade de ele possuir nível 
superior? 

3. Numa pesquisa sobre rotatividade de mão-de-obra, para uma amostra de 40 pessoas 
foram observadas duas variáveis: número de empregos nos últimos dois anos (X) e 
salário mais recente, em número de salários mínimos ( Y). Os resultados foram: 
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Indivíduo 

X 

Y 

Indivíduo 

X 

Y 

1 

1 

6 

21 

2 

4 

2 

3 

2 

22 

3 

2 

3 

2 

4 

23 

4 

1 

4 

3 

1 

24 

1 

5 

5 

2 

4 

25 

2 

4 

ó 

2 

1 

26 

3 

2 

7 

3 

3 

27 

4 

1 

8 

1 

5 

28 

1 

5 

9 

2 

2 

29 

4 

4 

10 

3 

2 

30 

3 

3 

11 

2 

5 

31 

2 

2 

12 

3 

2 

32 

1 

1 

13 

1 

6 

33 

4 

1 

14 

2 

6 

34 

2 

6 

15 

3 

2 

35 

4 

2 

16 

4 

2 

36 

3 

1 

17 

1 

5 

37 

1 

4 

18 

2 

5 

38 

3 

2 

19 

2 

1 

39 

2 

3 

20 

2 

1 

40 

2 

5 


(a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, para cada uma 
das variáveis, e construa a distribuição de freqüências conjunta das duas classificações. 

(b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? 

(c) Qual a porcentagem das pessoas que ganham pouco? 

(d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham pouco? 

(e) A informação adicional dada em (d) mudou muito a porcentagem observada em (c)? 

O que isso significa? 

4.3 Associação entre Variáveis Qualitativas 

Um dos principais objetivos de se construir uma distribuição conjunta de duas 
variáveis qualitativas é descrever a associação entre elas, isto é, queremos conhecer o 
grau de dependência entre elas, de modo que possamos prever melhor o resultado de 
uma delas quando conhecermos a realização da outra. 

Por exemplo, se quisermos estimar qual a renda média de uma família moradora 
da cidade de São Paulo, a informação adicional sobre a classe social a que ela pertence 
nos permite estimar com maior precisão essa renda, pois sabemos que existe uma 
dependência entre as duas variáveis: renda familiar e classe social. Ou, ainda, supo¬ 
nhamos que uma pessoa seja sorteada ao acaso na população da cidade de São Paulo 
e devamos adivinhar o sexo dessa pessoa. Como a proporção de pessoas de cada sexo 
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é aproximadamente a mesma, o resultado desse exercício de adivinhação poderia ser 
qualquer um dos sexos: masculino ou feminino. Mas se a mesma pergunta fosse feita 
e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica, então 
nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino. Ou 
seja, há um grau de dependência grande entre as variáveis sexo e ramo de atividade. 

Vejamos como podemos identificar a associação entre duas variáveis da distribui¬ 
ção conjunta. 

Exemplo 4.2 Queremos verificar se existe ou não associação entre o sexo e a carreira 
escolhida por 200 alunos de Economia e Administração. Esses dados estão na Tabela 4.5. 


Tabela 4.5: Distribuição conjunta de alunos segundo o sexo (X) e 
o curso escolhido (X). 


X 

Y 

Masculino 

Feminino 

Total 

Economia 

85 

35 

120 

Administração 

55 

25 

80 

Total 

140 

60 

200 


Fonte: Dados hipotéticos. 


Inicialmente, verificamos que fica muito difícil tirar alguma conclusão, devido à dife¬ 
rença entre os totais marginais. Devemos, pois, construir as proporções segundo as linhas 
ou as colunas para podermos fazer comparações. Fixemos os totais das colunas; a distribui¬ 
ção está na Tabela 4.6. 


Tabela 4.6: Distribuição conjunta das proporções (em porcentagem) 
de alunos segundo o sexo (X) e o curso escolhido [Y ). 


X 

Y 

Masculino 

Feminino 

Total 

Economia 

61% 

58% 

60% 

Administração 

39% 

42% 

40% 

Total 

100% 

100% 

100% 


Fonte: Tabelo 4.5. 


A partir dessa tabela podemos observar que, independentemente do sexo, 60% das 
pessoas preferem Economia e 40% preferem Administração (observe na coluna de total). 
Não havendo dependência entre as variáveis, esperaríamos essas mesmas proporções 
para cada sexo. Observando a tabela, vemos que as proporções do sexo masculino 
(61% e 39%) e do sexo feminino (58% e 42%) são próximas das marginais (60% e 40%). 
Esses resultados parecem indicar não haver dependência entre as duas variáveis, para o 
conjunto de alunos considerado. Concluímos então que, neste caso, as variáveis sexo e 
escolha do curso parecem ser não associadas. 
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Vamos considerar, agora, um problema semelhante, mas envolvendo alunos de 
Física e Ciências Sociais, cuja distribuição conjunta está na Tabela 4.7. 


Tabela 4.7: Distribuição conjunta das frequências e proporções (em 
porcentagem), segundo o sexo (X) e o curso escolhido (Y). 



Masculino 

Feminino 

Total 

Física 

100(71%) 

20(33%) 

120(60%) 

Ciências Sociais 

40(29%) 

40(67%) 

80(40%) 

Total 

140(100%) 

60(100%) 

200(100%) 


Fonte: Dados hipotéticos. 


Inicialmente, convém observar que, para economizar espaço, resumimos duas tabelas 
numa única, indicando as proporções em relação aos totais das colunas entre parênteses. 
Comparando agora a distribuição das proporções pelos cursos, independentemente do 
sexo (coluna de totais), com as distribuições diferenciadas por sexo (colunas de masculino 
e feminino), observamos uma disparidade bem acentuada nas proporções. Parece, pois, 
haver maior concentração de homens no curso de Física e de mulheres no de Ciências 
Sociais. Portanto, nesse caso, as variáveis sexo e curso escolhido parecem ser associadas. 

Quando existe associação entre variáveis, sempre é interessante quantificar essa 
associação, e isso será objeto da próxima seção. Antes de passarmos a discutir esse aspecto, 
convém observar que teríamos obtido as mesmas conclusões do Exemplo 4.2 se tivésse¬ 
mos calculado as proporções, mantendo constantes os totais das linhas. 


4. Usando os dados do Problema 1, responda: 

(a) Qual a distribuição das proporções do grau de educação segundo cada uma das 
regiões de procedência? 

(b) Baseado no resultado anterior e no Problema 2, você diria que existe dependência 
entre a região de procedência e o nível de educação do funcionário? 

5. Usando o Problema 3, verifique se há relações entre as variáveis rotatividade e salário. 

6. Uma companhia de seguros analisou a freqüência com que 2.000 segurados (1.000 
homens e 1.000 mulheres) usaram o hospital. Os resultados foram: 



Homens 

Mulheres 

Usaram o hospital 

100 

150 

Não usaram o hospital 

900 

850 


(a) Calcule a proporção de homens entre os indivíduos que usaram o hospital. 

(b) Calcule a proporção de homens entre os indivíduos que não usaram o hospital. 

(c) O uso do hospital independe do sexo do segurado? 
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4.4 Medidas de Associação entre Variáveis Qualitativas 

De modo geral, a quantificação do grau de associação entre duas variáveis é feita 
pelos chamados coeficientes de associação ou correlação. Essas são medidas que 
descrevem, por meio de um único número, a associação (ou dependência) entre duas 
variáveis. Para maior facilidade de compreensão, esses coeficientes usualmente variam 
entre 0 e 1, ou entre -1 e +1, e a proximidade de zero indica falta de associação. 

Existem muitas medidas que quantificam a associação entre variáveis qualitativas, 
apresentaremos apenas duas delas: o chamado coeficiente de contingência, devido a 
K. Pearson e uma modificação desse. 

Exemplo 4.3 Queremos verificar se a criação de determinado tipo de cooperativa está 
associada com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 4.8. 


Tabela 4.8: Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974. 


Estado 

Tipo de Cooperativa 

Total 

Consumidor 

Produtor 

Escola 

Outras 

São Paulo 

214(33%) 

237(37%) 

78(12%) 

119(18%) 

648(100%) 

Paraná 

51 (17%) 

102(34%) 

126(42%) 

22(7%) 

301 (100%) 

RioG. do Sul 

111 (18%) 

304(51%) 

139(23%) 

48(8%) 

602(100%) 

Total 

376(24%) 

643 (42%) 

343(22%) 

189(12%) 

1.551 (100%) 


Fonte: Sinopse Estatístico da Brasil — IBGE, 1977. 


A análise da tabela mostra a existência de certa dependência entre as variáveis. Caso 
não houvesse associação, esperaríamos que em cada estado tivéssemos 24% de coope¬ 
rativas de consumidores, 42% de cooperativas de produtores, 22% de escolas e 12% 
de outros tipos. Então, por exemplo, o número esperado de cooperativas de consumido¬ 
res no Estado de São Paulo seria 648 x 0,24 = 157 e no Paraná seria 301 x 0,24 = 73 (ver 
Tabela 4.9). 


Tabela 4.9: Valores esperados na Tabela 4.8 assumindo a independência entre as 
duas variáveis. 


Estado 

Tipo de Cooperativa 

Total 

Consumidor 

Produtor 

Escola 

Outras 

São Paulo 

157(24%) 

269(42%) 

143(22%) 

79(12%) 

648(100%) 

Paraná 

73(24%) 

124(42%) 

67(22%) 

37(12%) 

301 (100%) 

Rio G. do Sul 

146(24%) 

250(42%) 

133(22%) 

73(12%) 

602(100%) 

Total 

376(24%) 

643 (42%) 

343(22%) 

189(12%) 

1.551 (100%) 


Fonte: Tabela 4.8. 
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Tabela 4.10: Desvios entre observados e esperados. 


Estado 

Tipo de Cooperativa 

Consumidor 

Produtor 

Escola 

Outras 

São Paulo 

Paraná 

RioG. do Sul 

57(20,69) 
-22 (6,63) 
-35 (8,39) 

-32(3,81) 
-22 (3,90) 
54(11,66) 

-65(29,55) 

59(51,96) 

6(0,27) 

40(20,25) 

-15(6,08) 

-25(8,56) 


Fonte: Tabelas 4.8 e 4.9. 


Comparando as duas tabelas, podemos verificar as discrepâncias existentes entre os 
valores observados (Tabela 4.8) e os valores esperados (Tabela 4.9), caso as variáveis 
não fossem associadas. Na Tabela 4.10 resumimos os desvios: valores observados me¬ 
nos valores esperados. Observando essa tabela podemos tirar algumas conclusões: 

(i) A soma total dos resíduos é nula. Isso pode ser verificado facilmente soman¬ 
do-se cada linha. 

(ii) A caseia Escola-São Paulo é aquela que apresenta o maior desvio da suposição 
de não-associação (-65). Nessa caseia esperávamos 143 casos. A caseia Escola- 
Paraná também tem um desvio alto (59), mas o valor esperado é bem menor 
(67). Portanto, se fôssemos considerar os desvios relativos, aquele correspon¬ 
dente ao segundo caso seria bem maior. Uma maneira de observar esse fato é 
construir, para cada caseia, a medida 


no qual q é o valor observado e e é o valor esperado. 

Usando (4.1) para a caseia Escola-São Paulo obtemos (-65) 2 /143 = 29,55 e para a 
caseia Escola-Paraná obtemos (59) 2 /67= 51,96, o que é uma indicação de que o desvio 
devido a essa última caseia é "maior" do que aquele da primeira. Na Tabela 4.10 
indicamos entre parênteses esses valores para todas as caseias. 

Uma medida do afastamento global pode ser dada pela soma de todas as medi¬ 
das (4.1). Essa medida é denominada X 2 (qui-quadrado) de Pearson, e no nosso 
exemplo teríamos 

Z 2 = 20,69 + 6,63 + ... + 8,56 = 171,76. 

Um valor grande de X 2 indica associação entre as variáveis, o que parece ser 
o caso. 

Antes de dar uma fórmula geral para essa medida de associação, vamos introduzir, na 
Tabela 4.11, uma notação geral para tabelas de dupla entrada. 
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Tabela 4.11: Notação para tabelas de contingência. 



Suponha que temos duas variáveis qualitativas X e Y, classificadas em r categorias 
A v A v .... A x para X e s categorias B v B r ..., B s , para Y. 

Na tabela, temos: 


n.. = número de elementos pertencentes à i-ésima categoria de X e j-ésima categoria 
" de Y; 

n. = =1 n jj = número de elementos da i-ésima categoria de X; 

n j = X, =1 n. = número de elementos da j-ésima categoria de 
n..-n-Z.X. ;1 n. = número total de elementos. 

Sob a hipótese de que as variáveis X e Y não sejam associadas (comumente dize¬ 
mos independentes), temos que 



n,i _ n i2 _ _n is 

rij n 2 ■" n s ' ' ' ■■■' 

(4.2) 

ou ainda 

n» n, . . . . 

11 — _ - i=l r I = 1 s 

n , n 1 1 11 ’ ■■■' 


de onde se deduz, 

finalmente, que 



n, n, 

n ij n 1 1 ~ ■■■' C 1 ■■■' Si 

(4.3) 


Portanto, sob a hipótese de independência, de (4.3) segue que, em termos de 
freqüências relativas, podemos escrever f (i = f, f r 

Chamando de freqüências esperadas os valores dados pelos segundos membros 
de (4.3), e denotando-as por n‘, temos que o qui-quadrado de Pearson pode ser escrito 




= 11 

i=i/=i 


( n ij 


(4.4) 
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onde n são os valores efetivamente observados. Se a hipótese de não-associação for 
verdadeira, o valor calculado de (4.4) deve estar próximo de zero. Se as variáveis 
forem associadas, o valor de X 2 deve ser grande. 

Podemos escrever a fórmula (4.4) em termos de freqüências relativas, como 


r 


i-n- 1 f. 


f*) 2 

v 


para a qual as notações são similares. 

Pearson definiu uma medida de associação, baseada em (4.4), chamada coeficiente 
de contingência, dado por 


C = 



(4.5) 


Contudo, o coeficiente acima não varia entre 0 e 1. O valor máximo de C depen¬ 
de de r e s. Para evitar esse inconveniente, costuma-se definir um outro coeficiente, 
dado por 


T = 


X In 


(r-D(s-l) 


(4.6) 


que atinge o máximo igual a 1 se r = s. 

Para o Exemplo 4.3 temos que C = 0,32 e T = 0,14. Voltaremos a falar do uso do X 2 
no Capítulo 14. 


7. Usando os dados do Problema 1, calcule o valor de X 2 e o coeficiente de contingência C. 
Esses valores estão de acordo com as conclusões obtidas anteriormente? 

8. Qual o valor de X 2 e de C para os dados do Problema 3? E para o Problema 6? Calcule T. 

9. A Companhia A de dedetização afirma que o processo por ela utilizado garante um efeito 
mais prolongado do que aquele obtido por seus concorrentes mais diretos. Uma amostra 
de vários ambientes dedetizados foi colhida e anotou-se a duração do efeito de dedetização. 
Os resultados estão na tabela abaixo. Você acha que existe alguma evidência a favor ou 
contra a afirmação feita pela Companhia A ? 



Duração do efeito de dedetização 

Companhia 

Menos de 

4 meses 

De 4 a 8 

meses 

Mais de 

8 meses 

A 

64 

120 

16 

B 

104 

175 

21 

C 

27 

48 

5 
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4.5 Associação entre Variáveis Quantitativas 

Quando as variáveis envolvidas são ambas do tipo quantitativo, pode-se usar o 
mesmo tipo de análise apresentado nas seções anteriores e exemplificado com 
variáveis qualitativas. De modo análogo, a distribuição conjunta pode ser resumi¬ 
da em tabelas de dupla entrada e, por meio das distribuições marginais, é possível 
estudar a associação das variáveis. Algumas vezes, para evitar um grande número 
de entradas, agrupamos os dados marginais em intervalos de classes, de modo 
semelhante ao resumo feito no caso unidimensional. Mas, além desse tipo de aná¬ 
lise, as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos 
mais refinados. 

Um dispositivo bastante útil para se verificar a associação entre duas variáveis 
quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão, que vamos 
introduzir por meio de exemplos. 

Exemplo 4.4. Na Figura 4.2 temos o gráfico de dispersão das variáveis X e Y da 
Tabela 4.12. Nesse tipo de gráfico temos os possíveis pares de valores (x, y), na 
ordem que aparecem. Para o exemplo, vemos que parece haver uma associação 
entre as variáveis, porque no conjunto, à medida que aumenta o tempo de serviço, 
aumenta o número de clientes. 


Tabela 4.12: Número de anos de serviço (X) por número de clientes 
(X) de agentes de uma companhia de seguros. 


Agente 

Anos de serviço 
(X) 

Número de clientes 
(Y) 

A 

2 

48 

B 

3 

50 

C 

4 

56 

D 

5 

52 

E 

4 

43 

F 

6 

60 

G 

7 

62 

H 

8 

58 

1 

8 

64 

J 

10 

72 


Fonte: Dados hipotéticos. 
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Figura 4.2; Gráfico de dispersão para as variáveis X: 

anos de serviço e Y : número de clientes. 



Exemplo 4.5. Consideremos os dados das variáveis X: população urbana e Y\ população 
rural, do CD-Brasil. O gráfico de dispersão está na Figura 4.3. Vemos que parece não haver 
associação entre as variáveis, pois os pontos não apresentam nenhuma tendência particular. 

Figura 4.3 Gráfico de dispersão para as variáveis X: 
população urbana e V: população rural. 
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Exemplo 4.6. Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão. 


Tabela 4.13: Renda bruta mensal (X) e porcentagem da 
renda gasta em saúde [Y ) para um conjunto 
de famílias. 


Família 

X 

Y 

A 

12 

7,2 

B 

16 

7,4 

C 

18 

7,0 

D 

20 

6,5 

E 

28 

6,6 

F 

30 

6,7 

G 

40 

6,0 

H 

48 

5,6 

1 

50 

6,0 

J 

54 

5,5 


Fonte: Dados hipotéticos. 
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(a) Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salá¬ 
rios mínimos, mediram-se: 

X: renda bruta mensal (expressa em número de salários mínimos). 

Y\ a porcentagem da renda bruta anual gasta com assistência médica; os dados 
estão na Tabela 4.13. Observando o gráfico de dispersão (Figura 4.4), vemos 
que existe uma associação "inversa", isto é, aumentando a renda bruta, diminui 
a porcentagem sobre ela gasta em assistência médica. 


Figura 4.4: Gráfico de dispersão para as variáveis X: 

renda bruta e Y: % renda gasta com saúde. 



Antes de passarmos ao exemplo seguinte, convém observar que a disposição dos 
dados da Tabela 4.13 numa tabela de dupla entrada não iria melhorar a compreen¬ 
são dos dados, visto que, devido ao pequeno número de observações, teríamos 
caseias cheias apenas na diagonal. 

(b) Oito indivíduos foram submetidos a um teste sobre conhecimento de língua es¬ 
trangeira e, em seguida, mediu-se o tempo gasto para cada um aprender a operar 
uma determinada máquina. As variáveis medidas foram: 

X: resultado obtido no teste (máximo = 100 pontos); 

Y: tempo, em minutos, necessário para operar a máquina satisfatoriamente. 

Figura 4.5: Gráfico de dispersão para as variáveis X: 

resultado no teste e Y: tempo de operação. 
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Tabela 4.14: Resultado de um teste (X ) e tempo de ope¬ 
ração de máquina [Y) para oito indivíduos. 


Indivíduo 

X 

Y 

A 

45 

343 

B 

52 

368 

C 

61 

355 

D 

70 

334 

E 

74 

337 

F 

76 

381 

G 

80 

345 

H 

90 

375 


Fonte: Dados hipotéticos. 


Os dados estão na Tabela 4.14. Do gráfico de dispersão (Figura 4.5) concluímos 
que parece não haver associação entre as duas variáveis, pois conhecer o resultado do 
teste não ajuda a prever o tempo gasto para aprender a operar a máquina. 

A partir dos gráficos apresentados, verificamos que a representação gráfica das 
variáveis quantitativas ajuda muito a compreender o comportamento conjunto das 
duas variáveis quanto à existência ou não de associação entre elas. 

Contudo, é muito útil quantificar esta associação. Existem muitos tipos de associações 
possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é a linear. Isto 
é, iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de 
dispersão aproxima-se de uma reta. Esta medida será definida de modo a variar num 
intervalo finito, especificamente, de -1 a +1. 

Consideremos um gráfico de dispersão como o da Figura 4.6 (a) no qual, por meio de 
uma transformação conveniente, a origem foi colocada no centro da nuvem de dispersão. 
Aqueles dados possuem uma associação linear direta (ou positiva) e notamos que a grande 
maioria dos pontos está situada no primeiro e terceiro quadrantes. Nesses quadrantes as 
coordenadas dos pontos têm o mesmo sinal, e, portanto, o produto delas será sempre 
positivo. Somando-se o produto das coordenadas dos pontos, o resultado será um número posi¬ 
tivo, pois existem mais produtos positivos do que negativos. 

Figura 4.6: Tipos de associações entre duas variáveis. 
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Para a dispersão da Figura 4.6 (b), observamos uma dependência linear inversa 
(ou negativa) e, procedendo-se como anteriormente, a soma dos produtos das coorde¬ 
nadas será negativa. 
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Finalmente, para a Figura 4.6 (c), a soma dos produtos das coordenadas será zero, 
pois cada resultado positivo tem um resultado negativo simétrico, anulando-se na soma. 
Nesse caso não há associação linear entre as duas variáveis. Em casos semelhantes, 
quando a distribuição dos pontos for mais ou menos circular, a soma dos produtos será 
aproximadamente zero. 

Baseando-se nesses fatos é que iremos definir o coeficiente de correlação (linear) 
entre duas variáveis, que é uma medida do grau de associação entre elas e também da 
proximidade dos dados a uma reta. Antes, cabe uma observação. A soma dos produtos 
das coordenadas depende, e muito, do número de pontos. Considere o caso de associação 
positiva: a soma acima tende a aumentar com o número de pares (x, y) e ficaria difícil 
comparar essa medida para dois conjuntos com números diferentes de pontos. Por 
isso, costuma-se usar a média da soma dos produtos das coordenadas. 

Exemplo 4.7 Voltemos aos dados da Tabela 4.12. O primeiro problema que devemos 
resolver é o da mudança da origem do sistema para o centro da nuvem de dispersão. Um 
ponto conveniente é (x, y), ou seja, as coordenadas da origem serão as médias dos valores 
de X e Y. As novas coordenadas estão mostradas na quarta e quinta colunas da Tabela 4.15. 

Observando esses valores centrados, verificamos que ainda existe um problema quanto 
à escala usada. A variável Y tem variabilidade muito maior do queX, e o produto ficaria muito 
mais afetado pelos resultados de Y do que pelos de X. Para corrigirmos isso, podemos reduzir 
as duas variáveis a uma mesma escala, dividindo-se os desvios pelos respectivos desvios 
padrões. Esses novos valores estão nas colunas 6 e 7. Observe as mudanças (escalas dos 
eixos) de variáveis realizadas, acompanhando a Figura 4.7. Finalmente, na coluna 8, indica¬ 
mos os produtos das coordenadas reduzidas e sua soma, 8,769, que, como esperávamos, é 
positiva. Para completar a definição dessa medida de associação, basta calcular a média dos 
produtos das coordenadas reduzidas, isto é, correlação (X,Y) = 8,769/10 = 0,877. 

Tabela 4.15: Cálculo do coeficienLe de correlação. 


Agente 

Anos 

X 

Clientes 

y 

X- X 

y- y 

X- X 

y- y 

4 ' A 

cfp(x) 

dp[y) ^ 

A 

2 

48 

-3,7 

-8,5 

-1,54 

-1,05 

1,617 

B 

3 

50 

-2,7 

-6,5 

-1,12 

-0,80 

0,846 

C 

4 

56 

-1,7 

-0,5 

-0,71 

-0,06 

0,043 

D 

5 

52 

-0,7 

-4,5 

-0,29 

-0,55 

0,160 

E 

4 

43 

-1,7 

-13,5 

-0,71 

-1,66 

1,179 

F 

6 

60 

0,3 

3,5 

0,12 

0,43 

0,052 

G 

7 

62 

1,3 

5,5 

0,54 

0,68 

0,367 

H 

8 

58 

2,3 

1,5 

0,95 

0,19 

0,181 

1 

8 

64 

2,3 

7,5 

0,95 

0,92 

0,874 

J 

10 

72 

4,3 

15,5 

1,78 

1,91 

3,400 

Total 

57 

565 

0 

0 



8,769 


x = 5,7, cfp(X) = 2,41, y = 56,5, dp(Y) = 8,11 
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Portanto, para esse exemplo, o grau de associação linear está quantificado por 87,7%. 

Figura 4.7 Mudança de escalas para o cálculo do coeficiente de correlação. 



Da discussão feita até aqui, podemos definir o coeficiente de correlação do seguin¬ 
te modo. 


Definição. Dados n pares de valores (x r yj, (x 2 , y 2 ), ..., (x n , y n ), chamaremos de coe¬ 
ficiente de correlação entre as duas variáveis X e Y a 


corr(X, /) = -i-É| 


X, - x 

dp(X) 


Yi-y \ 
dp(Y) )' 


(4.7) 


ou seja, a média dos produtos dos valores padronizados das variáveis. 

Não é difícil provar que o coeficiente de correlação satisfaz 

-1 ^ corr(X, Y) 1. (4.8) 


A definição acima pode ser operacionalizada de modo mais conveniente pelas 
seguintes fórmulas: 


corr(X, Y) = ! X' 
n 


VízI) 

dp(X)/\dp(Y)/ 


Dw - nx Y 

■KZxi _ - ny 2 ) 


(4.9) 


O numerador da expressão acima, que mede o total da concentração dos pontos pelos 
quatro quadrantes, dá origem a uma medida bastante usada e que definimos a seguir. 


Definição. Dados n pares de valores (x 1( yj, ..., (x n , y n ), chamaremos de covariância 
entre as duas variáveis X eY a 


cov(x, y) = 


(4.10) 


ou seja, a média dos produtos dos valores centrados das variáveis. 

Com essa definição, o coeficiente de correlação pode ser escrito como 


corr(X, Y) = 


cov(X, Y) 
dp(X) . dp(Y) 


(4.11) 
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Para analisar dois conjuntos de dados podemos recorrer, também, aos métodos 
utilizados anteriormente para analisar um conjunto de dados, exibindo as análises feitas 
separadamente, para efeito de comparação. Por exemplo, podemos exibir os desenhos 
esquemáticos, ou os ramos-e-folhas para os dois conjuntos de observações. 

4.6 Associação entre Variáveis Qualitativas e Quantitativas 

Como mencionado na introdução deste capítulo, é comum nessas situações anali¬ 
sar o que acontece com a variável quantitativa dentro de cada categoria da variável 
qualitativa. Essa análise pode ser conduzida por meio de medidas-resumo, histogramas, 
box plots ou ramo-e-folhas. Vamos ilustrar com um exemplo. 

Exemplo 4.8. Retomemos os dados da Tabela 2.1, para os quais desejamos analisar 
agora o comportamento dos salários dentro de cada categoria de grau de instrução, ou 
seja, investigar o comportamento conjunto das variáveis S e Y. 


Tabela 4.16: Medidas-resumo para a variável salário, segundo o grau de instrução, na Companhia MB. 


Grau de 
instrução 

n 

s 

dpís) 

var(S) 

S(i) 

Qi 

42 

4s 

S(nt 

Fundamental 

12 

7,84 

2,79 

7,77 

4,00 

6,01 

7,13 

9,16 

13,65 

Médio 

18 

11,54 

3,62 

13,10 

5,73 

8,84 

10,91 

14,48 

19,40 

Superior 

6 

16,48 

4,11 

16,89 

10,53 

13,65 

16,74 

18,38 

23,30 

Todos 

36 

11,12 

4,52 

20,46 

4,00 

7,55 

10,17 

14,06 

23,30 


Comecemos a análise construindo a Tabela 4.16, que contém medidas-resumo da 
variável S para cada categoria de Y. A seguir, na Figura 4.8, apresentamos uma 
visualização gráfica por meio de box plots. 


Figura 4.8: Box plots de salário segundo grau de instrução. 
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4.6 ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS 


A leitura desses resultados sugere uma dependência dos salários em relação ao grau de 
instrução: o salário aumenta conforme aumenta o nível de educação do indivíduo. O salário 
médio de um funcionário é 11,12 (salários mínimos), já para um funcionário com curso 
superior o salário médio passa a ser 16,48, enquanto funcionários com o ensino fundamental 
completo recebem, em média, 7,84. 

Na Tabela 4.17 e Figura 4.9 temos os resultados da análise dos salários em função 
da região de procedência (V), que mostram a inexistência de uma relação melhor 
definida entre essas duas variáveis. Ou, ainda, os salários estão mais relacionados com 
o grau de instrução do que com a região de procedência. 


Tabela 4.17: Medidas-resumo para a variável salário segundo a região de procedência, na Com¬ 
panhia MB. 


Região de 
procedência 

n 

s 

dp(S) 

var(S) 

s (i) 

<7i 

4 2 

4b 

S (n) 

Capital 

11 

11,46 

5,22 

27,27 

4,56 

7,49 

9,77 

16,63 

19,40 

Interior 

12 

11,55 

5,07 

25,71 

4,00 

7,81 

10,64 

14,70 

23,30 

Outra 

13 

10,45 

3,02 

9,13 

5,73 

8,74 

9,80 

12,79 

16,22 

Todos 

36 

11,12 

4,52 

20,46 

4,00 

7,55 

10,17 

14,06 

23,30 


Figura 4.9 Boxplots de salário segundo região de procedência. 



Capital Interior 


Outra 


Como nos casos anteriores, é conveniente poder contar com uma medida que quantifique 
o grau de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias 
podem ser usadas como insumos para construir essa medida. Sem usar a informação da 
variável categorizada, a variância calculada para a variável quantitativa para todos os dados 
mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria for peque¬ 
na e menor do que a global, significa que a variável qualitativa melhora a capacidade de 
previsão da quantitativa e portanto existe uma relação entre as duas variáveis. 

Observe que, para as variáveis S e Y, as variâncias de S dentro das três categorias 
são menores do que a global. Já para as variáveis Sei/, temos duas variâncias de S 
maiores e uma menor do que a global, o que corrobora a afirmação acima. 
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Necessita-se, então, de uma medida-resumo da variância entre as categorias da 
variável qualitativa. Vamos usar a média das variâncias, porém ponderada pelo núme¬ 
ro de observações em cada categoria, ou seja, 

ST5RS) = (4.12) 

SV", 

no qual k é o número de categorias (k = 3 nos dois exemplos acima) e var.(S) denota a 
variância de S dentro da categoria /, / = 1, 2. k. 

Pode-se mostrar que var(S) var(S), de modo que podemos definir o grau de 
associação entre as duas variáveis como o ganho relativo na variância, obtido pela 
introdução da variável qualitativa. Explicitamente, 

D 2 _ var(S) - var(S) _var(S) iatz\ 

R -vãr(S]- 1_ VãríS)- (4 ' 13) 

Note que 0 R 2 1. O símbolo R 2 é usual em análise de variância e regressão, 
tópicos a serem abordados nos Capítulos 15 e 16, respectivamente. 


Exemplo 4.9. Voltando aos dados do Exemplo 4.8, vemos que para a variável S na 
presença de grau de instrução, tem-se 


var(S) = 


12(7,77) +18(13,10) + 6(16,89) 

12+18+6 


var(S) = 20,46, 


11,96, 


de modo que 


R 2 = 1 - 


11,96 

20,46 


= 0,415, 


e dizemos que 41,5% da variação total do salário é explicada pela variável grau de 
instrução. 

Para S e região de procedência temos 

CTTTTcT _ 11(27,27) + 12(25,71) + 13(9,13) _ 
var( S)- n+12+13 - 20 ' 20 ' 

e, portanto, 

d 2 _ i _ 20,20 _ n ni 3 
K ~ 1 20,46 “ U,U1J ' 

de modo que apenas 1,3% da variabilidade dos salários é explicada pela região de procedên¬ 
cia. A comparação desses dois números mostra maior relação entre S e / do que entre S eV. 
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4.6 ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS 


10. Para cada par de variáveis abaixo, esboce o diagrama de dispersão. Diga se você espera 
uma dependência linear e nos casos afirmativos avalie o coeficiente de correlação. 

(a) Peso e altura dos alunos do primeiro ano de um curso de Administração. 

(b) Peso e altura dos funcionários de um escritório. 

(c) Quantidade de trigo produzida e quantidade de água recebida por canteiros numa 
estação experimental. 

(d) Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas. 

(e) Acuidade visual e idade de um grupo de pessoas. 

(f) Renda familiar e porcentagem dela gasta em alimentação. 

(g) Número de peças montadas e resultado de um teste de inglês por operário. 

11. Abaixo estão os dados referentes à porcentagem da população economicamente ativa 
empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões 
metropolitanas brasileiras. 


Regiões metropolitanas 

Setor primário 

índice de analfabetismo 

São Paulo 

2,0 

17,5 

Rio de Janeiro 

2,5 

18,5 

Belém 

2,9 

19,5 

Belo Horizonte 

3,3 

22,2 

Salvador 

4,1 

26,5 

Porto Alegre 

4,3 

16,6 

Recife 

7,0 

36,6 

Fortaleza 

13,0 

38,4 


Fonte: Indicadores Sociais pora Áreas Urbanas — IBGE — 1977. 


(a) Faça o diagrama de dispersão. 

(b) Você acha que existe uma dependência linear entre as duas variáveis? 

(c) Calcule o coeficiente de correlação. 

(d) Existe alguma região com comportamento diferente das demais? Se existe, elimine o 
valor correspondente e recalcule o coeficiente de correlação. 

12. Usando os dados do Problema 3: 

(a) Construa a tabela de freqüências conjuntas para as variáveisX (número de empregos 
nos dois últimos anos) e Y (salário mais recente). 

(b) Como poderia ser feito o gráfico de dispersão desses dados? 

(c) Calcule o coeficiente de correlação. Baseado nesse número você diria que existe 
dependência entre as duas variáveis? 
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13. Quer se verificar a relação entre o tempo de reação e o número de alternativas apresen¬ 
tadas a indivíduos acostumados a tomadas de decisão. Planejou-se um experimento em 
que se pedia ao participante para classificar objetos segundo um critério previamente 
discutido. Participaram do experimento 15 executivos divididos aleatoriamente em grupos 
de cinco. Pediu-se, então, a cada grupo para classificar dois, três e quatro objetos, 
respectivamente. Os dados estão abaixo. 


N s de objetos 

2 

3 

4 

Tempo de reação 

1,2,3,3,4 

2,3,4,4,5 

4,5,5,6,7 


(a) Faça o gráfico de dispersão das duas variáveis. 

(b) Qual o coeficiente de correlação entre elas? 

14. Calcule o grau de associação entre as variáveis estado civil e idade, na Tabela 2.1. 

15. Usando os dados do Problema 9 do Capítulo 2, calcule o grau de associação entre seção 
e notas em Estatística. 


4.7 Gráficos qxq 

Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o 
gráfico quantis x quantis, que passamos a discutir. 

Suponha que temos valores x v ..., x n da variável X e valores y v ..., y m da variável Y, 
todos medidos pela mesma unidade. Por exemplo, temos temperaturas de duas cida¬ 
des ou alturas de dois grupos de indivíduos etc. O gráfico q x q é um gráfico dos 
quantis de X contra os quantis de Y. 

Pelo que vimos no Capítulo 3, se m = n o gráfico q x q é um gráfico dos dados 
ordenados de X contra os dados ordenados de Y. Se as distribuições dos dois conjuntos 
de dados fossem idênticas, os pontos estariam sobre a reta y = x. 

Enquanto um gráfico de dispersão fornece uma possível relação global entre as variá¬ 
veis, o gráfico qxq mostra se valores pequenos de X estão relacionados com valores 
pequenos de Y, se valores intermediários deX estão relacionados com valores intermediá¬ 
rios de Y e se valores grandes de X estão relacionados com valores grandes de Y. Num 
gráfico de dispersão podemos ter x 1 <x 2 ey 1 > y 2 , o que não pode acontecer num gráfico 
qxq, pois os valores em ambos os eixos estão ordenados, do menor para o maior. 

Exemplo 4.10. Na Tabela 4.18 temos as notas de 20 alunos em duas provas de 
Estatística e, na Figura 4.10, temos o correspondente gráfico qxq. Os pontos estão 
razoavelmente dispersos ao redor da reta x = y, mostrando que as notas dos alunos 
nas duas provas não são muito diferentes. Mas podemos notar que, para notas abaixo 
de cinco, os alunos tiveram notas maiores na segunda prova, ao passo que, para 
notas de cinco a oito, os alunos tiveram notas melhores na primeira prova. A maioria 
das notas estão concentradas entre cinco e oito. 
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Figura 4.10: Gráfico q xq para as notas em duas 
provas de Estatística. 



Tabela 4.18: Notas de 20 alunos em duas provas de Estatística. 


Aluno 

Prova 1 

Prova 2 

Aluno 

Prova 1 

Prova 2 

1 

8,5 

8,0 

11 

7,4 

6,5 

2 

3,5 

2,8 

12 

5,6 

5,0 

3 

7,2 

6,5 

13 

6,3 

6,5 

4 

5,5 

6,2 

14 

3,0 

3,0 

5 

9,5 

9,0 

15 

8,1 

9,0 

6 

7,0 

7,5 

16 

3,8 

4,0 

7 

4,8 

5,2 

17 

6,8 

5,5 

8 

6,6 

7,2 

18 

10,0 

10,0 

9 

2,5 

4,0 

19 

4,5 

5,5 

10 

7,0 

6,8 

20 

5,9 

5,0 


Exemplo 4.11. Consideremos, agora, as variáveis temperatura de Ubatuba e temperatura 
de Cananéia, do CD-Temperaturas. 0 gráfico q x q está na Figura 4.11. Observamos que 
a maioria dos pontos está acima da reta y = x, mostrando que as temperaturas de Ubatuba 
são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus. 

Quando m * n, é necessário modificar os valores de p para os quantis da variável 
com maior número de pontos. Ver o Problema 33 para a solução desse caso. 


Figura 4.11: Gráfico q x q para os lados de tem¬ 
peratura de Cananéia e Ubatuba. 
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Problemas 


16. Faça o gráfico q x q para as notas em Redação e Economia dos 25 funcionários da MB 
Indústria e Comércio (Problema 9 do Capítulo 2). 

17. Faça o gráfico q x q para as variáveis salário de professorsecundário e salário de administrador do 
CD-Salários. Comente. 

4.8 Exemplos Computacionais 

Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados. 
Exemplos são os dados sobre o Brasil, de poluição e estatísticas sobre veículos, en¬ 
contrados nos Conjuntos de Dados. Veremos, também, um exemplo de cálculo do 
coeficiente de correlação para dados reais da Bolsa de Valores de São Paulo. 

Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa. 

Exemplo 4.12. Considere as variáveis salário, idade e grau de instrução da Tabela 2.1. 
Separamos, agora, os salários e idades por classe de grau de instrução. Depois, podemos 
fazer gráficos de dispersão, como na Figura 4.12. 


Figura 4.12 Gráficos de dispersão das variáveis salário e idade, segundo a variável grau de instrução. 
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Notamos que para o ensino fundamental e grau superior os salários aumentam em 
geral com a idade, ao passo que para o ensino médio essa relação não se verifica, haven¬ 
do salários baixos e altos numa faixa entre 350 e 450 meses. 

Exemplo 4.13. Considere o CD-Mercado, no qual temos os preços de fechamento diários 
de ações da Telebrás (X) e os índices IBOVESPA (Y), de 2 de janeiro a 24 de fevereiro de 
1995, num total de n = 39 observações. O gráfico de dispersão está na Figura 4.13, que 
mostra que os pares de valores estão dispostos ao longo de uma reta com inclinação 
positiva. Ou seja, esse gráfico mostra que há uma forte correlação entre o preço das 
ações da Telebrás e o índice da Bolsa de Valores de São Paulo. No gráfico está represen¬ 
tada a "reta de mínimos quadrados". No Capítulo 16 veremos como determiná-la. 
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Figura 4.13: Gráfico de dispersão para ações da Telebrás e 
BOVESPA. 



Utilizando (4.9) obtemos que 

cornar) .,402t3J8-;39j(27j9K36j8) = n 08 . 

V(31135,93 - (39)(27,99) 2 )(51999,68 - (39)(36,28) 2 ) 
o que mostra a forte associação linear entre X e Y. 

Finalizamos esta seção com um tipo de gráfico que também é útil quando temos 
duas variáveis quantitativas e uma qualitativa. 


Exemplo 4.14. Considere o CD-Veículos, no qual temos o preço, o comprimento e a 
capacidade do motor de veículos vendidos no Brasil, classificados em duas categorias: 
N (nacionais) e I (importados). Podemos fazer um gráfico de dispersão simbólico de 
preços e comprimentos, indicando por um x se o carro for N e por um °, se for I. Veja a 
Figura 4.14. Observamos, pela figura, que os preços dos veículos importados são, em 
geral, maiores do que os nacionais e que o preço aumenta com o comprimento. 

Figura 4.14; Gráfico de dispersão simbólico das variáveis preço e 
comprimento de veículos, categorizadas pela variável 
procedência: nacional (x) e importado (o). 
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4.9 Problemas e Complementos 

18. No estudo de uma certa comunidade, verificou-se que: 

(I) A proporção de indivíduos solteiros é de 0,4. 

(II) A proporção de indivíduos que recebem até 10 salários mínimos é de 0,2. 

(III) A proporção de indivíduos que recebem até 20 salários mínimos é de 0,7. 

(IV) A proporção de indivíduos casados entre os que recebem mais de 20 salários míni¬ 
mos é de 0,7. 

(V) A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 0,3. 

(a) Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respec¬ 
tivas distribuições marginais. 

(b) Você diria que existe relação entre as duas variáveis consideradas? 

19. Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião 
sobre um certo projeto governamental. O resultado foi o seguinte: 


Opinião 

Local de residência 

Total 

Urbano 

Suburbano 

Rural 

A favor 

30 


35 


35 

100 

Contra 

60 


25 


15 

100 

Total 

90 

60 

50 

200 


(a) Calcule as proporções em relação ao total das colunas. 

(b) Você diria que a opinião independe do local de residência? 

(c) Encontre uma medida de dependência entre as variações. 

20. Com base na tabela abaixo, você concluiria que o tipo de atividade está relacionado ao 
fato de as embarcações serem de propriedade estatal ou particular? Encontre uma medi¬ 
da de dependência entre as variáveis. 


Propriedade 

Atividade 

Total 


Fluvial 

Internacional 

Costeira 

Estatal 

5 

141 

51 

197 

Particular 

92 

231 

48 

371 

Total 

97 

372 

99 

568 


Fonte: Sinopse Estatístico do Brasil — IBGE — 1975. 


21. Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas 
proximidades de centros esportivos construídos pelo estado de São Paulo mostrou os 
resultados da tabela abaixo. Baseado nesses resultados você diria que a participação em 
atividades esportivas depende da cidade? 


Cidade 


ramcipam 

São Paulo 

Campinas 

Rib. Preto 

Santos 

Sim 

50 

65 

105 

120 

Não 

150 

185 

195 

180 
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22. Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos, segundo a 
classe social do respondente, mostrou o seguinte quadro: 


Pretende 

Classe social 

Total 

continuar? 

Alta 

Média 

Baixa 

Sim 

200 

220 

380 

800 

Não 

200 

280 

720 

1.200 


(a) Você diria que a distribuição de respostas afirmativas é igual à de respostas 
negativas? 

(b) Existe dependência entre os dois fatores? Dê uma medida quantificadora da depen¬ 
dência. 

(c) Se dos 400 alunos da classe alta 160 escolhessem continuar e 240 não, você muda¬ 

ria sua conclusão? Justifique. 

23. Refaça os cálculos do Problema 19 usando as fórmulas derivadas em (4.2) — (4.3). 


2' , - P r°»qu4?(|lF) 


ÍU) 


Zx,y,- nxy 

a/£> 2 - ™ 2 )(Ey 2 - nf) 


25. Numa amostra de cinco operários de uma dada empresa foram observadas duas variá¬ 
veis: X: anos de experiência num dado cargo e Y : tempo, em minutos, gasto na execução 
de uma certa tarefa relacionada com esse cargo. 

As observações são apresentadas na tabela abaixo: 


X 

1 

2 

4 

4 

Ex = 16 Ex 2 = 62 

Y 

7 

8 

3 

2 

Ey = 22 Sy 2 = i30 


Sxy = 53 


Você diria que a variável X pode ser usada para explicar a variação de V ? Justifique. 

26. Muitas vezes a determinação da capacidade de produção instalada para certo tipo de 
indústria em certas regiões é um processo difícil e custoso. Como alternativa, pode-se 
estimar a capacidade de produção através da escolha de uma outra variável de medida 
mais fácil e que esteja linearmente relacionada com ela. 

Suponha que foram observados os valores para as variáveis: capacidade de produção 
instalada, potência instalada e área construída. Com base num critério estatístico, qual 
das variáveis você escolheria para estimar a capacidade de produção instalada? 


X: cap. prod. inst. (ton.) 

4 5 

4 

5 

89 10 11 12 

12 

V : potência inst. (1.000 kW) 

1 1 

2 

3 

3 5 5 6 6 

6 

Z: área construída (100 m) 

6 7 

10 

10 

11 9 12 10 11 

14 

M 

X 

II 

oo 

o 

Sy = 38, 



M 

Kl 

II 

I— 1 

O 

O 


Ex 2 = 736, 

Ey 2 = i82, 



5>= 1.048, 


Xxy = 361, 

Exz = 848, 



Xyz = 4ii. 
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27. Usando os dados da Tabela 2.1, Capítulo 2: 

(a) Construa a tabela de distribuições de freqüências conjunta para as variáveis salário e 
idade, mas divida cada uma delas num certo número de intervalos de classe. 

(b) Como poderia ser calculado o coeficiente de correlação baseado nessa tabela? 

(c) Você conseguiria "escrever" a fórmula da correlação para dados agrupados? 

28. Lançam-se, simultaneamente, uma moeda de um real e uma de um quarto de dólar. Em 
cada tentativa anotou-se o resultado, cujos dados estão resumidos na tabela abaixo. 


1/4 dólar 

1 Real 

Cara 

Coroa 

Total 

Cara 


24 

22 

46 

Coroa 


28 

26 

54 

Total 

52 

48 

100 


Fonte: Experimento conduzido pelos autores. 


(a) Esses dados sugerem que os resultados da moeda de um real e as de um quarto de 
dólar estão associados? 

(b) Atribua para ocorrência cara o valor 0 e para a ocorrência de coroa o valor 1. 
Chamando de X : o resultado do real e de X 2 o resultado do quarto de dólar, 
calcule a correlação entre X 1 eX r Essa medida está de acordo com a resposta que 
você deu anteriormente? 

29. Uma amostra de dez casais e seus respectivos salários anuais (em s.m.) foi colhida num 
certo bairro conforme vemos na tabela abaixo. 



Casal n 2 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

Salário 

Homem ( X ) 

10 

10 

10 

15 

15 

15 

15 

20 

20 

20 


Mulher (Y) 

5 

10 

10 

5 

10 

10 

15 

10 

10 

15 


Sabe-se que: 

=150, 2-400, 

= i-55o, 2,V/=ioo- 

Zllji =i.ioo. 

(a) Encontre o salário anual médio dos homens e o seu desvio padrão. 

(b) Encontre o salário anual médio das mulheres e o seu desvio padrão. 

(c) Construa o diagrama de dispersão. 

(d) Encontre a correlação entre o salário anual dos homens e o das mulheres. 

(e) Qual o salário médio familiar? E a variância do salário familiar? 

(f) Se o homem é descontado em 8% e a mulher em 6%, qual o salário líquido anua 
médio familiar? E a variância? 
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30. O departamento de vendas de certa companhia foi formado há um ano com a admissão 
de 15 vendedores. 

Nessa época, foram observados para cada um dos vendedores os valores de três variáveis: 
T: resultado em um teste apropriado para vendedores; 

E: anos de experiência de vendas; 

G: conceito do gerente de venda, quanto ao currículo do candidato. 

O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua 
colaboração para responder a algumas perguntas. Para isso, ele lhe dá informações 
adicionais sobre duas variáveis: 

V: volume médio mensal de vendas em s.m.; 

Z. zona da capital para a qual o vendedor foi designado. 

O quadro de resultados é o seguinte: 


Vendedor 

T: teste 

E: experiência 

G: conceito 
do gerente 

V: vendas 

Z: zona 

1 

8 

5 

Bom 

54 

Norte 

2 

9 

2 

Bom 

50 

Sul 

3 

7 

2 

Mau 

48 

Sul 

4 

8 

1 

Mau 

32 

Oeste 

5 

6 

4 

Bom 

30 

Sul 

6 

8 

4 

Bom 

30 

Oeste 

7 

5 

3 

Bom 

29 

Norte 

8 

5 

3 

Bom 

27 

Norte 

9 

6 

1 

Mau 

24 

Oeste 

10 

7 

3 

Mau 

24 

Oeste 

11 

4 

4 

Bom 

24 

Sul 

12 

7 

2 

Mau 

23 

Norte 

13 

3 

3 

Mau 

21 

Sul 

14 

5 

1 

Mau 

21 

Oeste 

15 

3 

2 

Bom 

16 

Norte 


Dados: Sr=91 St 2 =601 S7V =2.959 

Se =40 Se 2 =128 Sev=l260 

S V =453 s y 2 = 15.509 


Mais especificamente, o diretor lhe pede que responda aos sete itens seguintes: 

(a) Faça o histograma da variável V em classes de 10, tendo por limite inferior da 
primeira classe o valor 15. 

(b) Encontre a média e a variância da variável V. Suponha que um vendedor seja 
considerado excepcional se seu volume de vendas é dois desvios padrões superior 
à média geral. Quantos vendedores excepcionais existem na amostra? 

(c) O diretor de vendas anunciou que transferirá para outra praça todos os vendedores 
cujo volume de vendas for inferior ao 1° quartil da distribuição. Qual o volume 
mínimo de vendas que um vendedor deve realizar para não ser transferido? 











CAPÍTULO 4 — ANÁLISE BIDIMENSIONAL 


(d) Os vendedores argumentam com o diretor que esse critério não é justo, pois há zonas 
de venda privilegiadas. A quem você daria razão? 

(e) Qual das três variáveis observadas na admissão do pessoal é mais importante para 
julgar um futuro candidato ao emprego? 

(f) Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vende¬ 
dor foi designado? Você tem explicação para esse resultado? 

(g) Qual o grau de associação entre o conceito do gerente e o resultado do teste? 
E entre zona e vendas? 

31. A seção de assistência técnica da Companhia MB tem cinco funcionários: A, B, C, D e E, 
cujos tempos de serviço na companhia são, respectivamente, um, três, cinco, cinco e sete 
anos. 

(a) Faça um gráfico representando a distribuição de freqüência dos tempos de serviço X. 

(b) Calcule a média me(X ), a variância T/ar(X) e a mediana md(X ). 

Duas novas firmas, a Verde e a Azul, solicitaram o serviço de assistência técnica da 
Milsa. Um mesmo funcionário pode ser designado para atender a ambos os pedidos, 
ou dois funcionários podem fazê-lo. Assim, o par (A, B) significa que o funcionário 
A atenderá à firma Verde e o funcionário B, à firma Azul. 

(c) Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos. 

(d) Para cada par, calcule o tempo médio de serviço X, faça a distribuição de freqüência 
e uma representação gráfica. Compare com o resultado de (a). 

(e) Calcule para os 25 valores de X os parâmetros me(X ), T/ar(X) e md(X). Compare 
com os resultados obtidos em (b). Que tipo de conclusão você poderia tirar? 

(f) Para cada par obtido em (c), calcule a variância do par e indique-a por S 2 . Faça a 
representação gráfica da distribuição dos valores de S 2 . 

(g) Calcule me(S 2 ) e var(5 2 ). 

(h) Indicando porX 2 a variável que expressa o tempo de serviço do funcionário que irá 
atender à firma Verde eX ; o que irá atender à firma Azul, faça a distribuição 
conjunta da variável bidimensional (X i; X 2 ). 

(i) As duas variáveis X 1 e X 2 são independentes? 

(j) O que você pode falar sobre as distribuições "marginais" de X 2 e X 2 ? 

(l) Suponha agora que três firmas solicitem o serviço de assistência técnica. Quantas 
triplas podem ser formadas? 

(m) Sem calcular todas as possibilidades, como você acha que ficaria o histograma 
deX? E me(X)? e var(X)? 

(n) E sobre a variável S 2 ? 

(o) A variável tridimensional (X v X 2 , X 3 ) teria alguma propriedade especial para as 
suas distribuições "marginais"? 

32. Refaça o problema anterior, admitindo agora que um mesmo funcionário não pode 
atender a duas firmas. 
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33. Gráficos quantis x quantis. Na seção 4.5 vimos como construir um gráfico q x q 
quando m - n. Suponha n >m, isto é, temos um número maior de observações de X. 
Então, usamos as observações ordenadas y (1) =£ ... y (m) e interpolamos um conjunto 
correspondente de quantis para o conjunto dos x f ordenados. O valor ordenado y (j) 

corresponde a p j = -—^—. Para X, queremos um valor j tal que 


logo 


j - 0,5 _ / - 0,5 
n m ' 

j=^(i- 0,5)+0,5. 


Se j for inteiro, fazemos o gráfico de y (() versus x [j} . 

Se j - k + r, onde k é inteiro e 0 < r <1, então 

= (1 - r)x w + r ■ X » + U- 

Exemplo: Se m - 20 e n - 40, 

j = - 0,5) + 0,5 = 2/ - 0,5, 

logo k = 2/ - 1, r - 0,5, e fazemos o gráfico de 

y (1) versus [0,5x (1) +0,5x (2) ], 

y (2) versus [0,5x (3) +0,5x (4) ] etc. 

34. Faça o gráfico q xq para os dois conjuntos de dados em A e B a seguir. 


A 

65 

54 

49 

60 

70 

25 

87 

100 

70 

102 

40 

47 

B 

48 

35 

45 

50 

52 

20 

72 

102 

46 

82 

- 

- 


35. Faça gráficos de dispersão unidimensionais e boxplots para a variável salário da Tabela 2.1, 
segundo a região de procedência. Analise os resultados. 

36. Analise as variáveis salário e idade da Tabela 2.1, segundo o estado civil de cada indiví¬ 
duo. Quais conclusões você pode obter? 

37. Analise a população total do CD-Brasil, segundo as regiões geográficas. 

38. Considere os dados do Exemplo 4.14 e o seguinte critério: valores abaixo da média 
indicam mercado em BAIXA e valores maiores ou iguais à média indicam mercado em 
ALTA. Categorize os dados segundo esse critério e apresente os resultados numa tabela de 
dupla entrada. Calcule uma medida de associação. O valor obtido corrobora ou não o 
resultado obtido no Exemplo 4.14? Comente. 

39. Considere o CD-Poluição e as variáveis CO, temperatura e umidade. Faça gráficos de 
dispersão para pares de variáveis. Quais conclusões você pode obter? 
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Capítulo 5 


Probabilidades 


5.1 Introdução 

Na primeira parte deste livro, vimos que a análise de um conjunto de dados por 
meio de técnicas numéricas e gráficas permite que tenhamos uma boa idéia da distri¬ 
buição desse conjunto. Em particular, a distribuição de freqüências é um instrumento 
importante para avaliarmos a variabilidade das observações de um fenômeno aleató¬ 
rio. A partir dessas freqüências observadas podemos calcular medidas de posição e 
variabilidade, como média, mediana, desvio padrão etc. Essas freqüências e medidas 
calculadas a partir dos dados são estimativas de quantidades desconhecidas, associa¬ 
das em geral a populações das quais os dados foram extraídos na forma de amostras. 
Em particular, as freqüências (relativas) são estimativas de probabilidades de ocorrên¬ 
cias de certos eventos de interesse. Com suposições adequadas, e sem observarmos 
diretamente o fenômeno aleatório de interesse, podemos criar um modelo teórico que 
reproduza de maneira razoável a distribuição das freqüências, quando o fenômeno é 
observado diretamente. Tais modelos são chamados modelos probabilísticos e serão 
objeto de estudo neste capítulo e nos subseqüentes. 

Exemplo 5.1 Queremos estudar as freqüências de ocorrências das faces de um dado. 
Um procedimento a adotar seria lançar o dado certo número de vezes, n, e depois 
contar o número n.de vezes em que ocorre a face /', /' = 1, 2, ..., 6. As proporções n.Jn 
determinam a distribuição de freqüências do experimento realizado. Lançando o dado 
um número n'(n' * n ) de vezes, teríamos outra distribuição de freqüências, mas com um 
padrão que esperamos ser muito próximo do anterior. 

O modelo probabilístico pode ser construído por meio de premissas, como se segue. 

Primeiro, observamos que só podem ocorrer seis faces; a segunda consideração que 
se faz é que o dado seja perfeitamente equilibrado, de modo a não favorecer alguma face 
em particular. Com essas suposições, cada face deve ocorrer o mesmo número de vezes 
quando o dado é lançado n vezes, e, portanto, a proporção de ocorrência de cada face 
deve ser 1/6. Nessas condições, o modelo teórico (ou probabilístico) para o experimento 
é dado na Tabela 5.1. 
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Tabela 5.1: Modelo para lançamento de um dado. 


Face 

1 

2 

3 

4 

5 

ó 

Total 

Freqüência teórica 

l/ó 

1/6 

l/ó 

l/ó 

1/6 

l/ó 

1 


Exemplo 5.2 De um grupo de duas mulheres (M) e três homens (H), uma pessoa será 
sorteada para presidir uma reunião. Queremos saber as probabilidades de o presidente 
ser do sexo masculino ou feminino. Observamos que: (i) só existem duas possibilida¬ 
des: ou a pessoa sorteada é do sexo masculino (H) ou é do sexo feminino (M); (ii) 
supondo que o sorteio seja honesto e que cada pessoa tenha igual chance de ser sorteada, 
teremos o modelo probabilístico da Tabela 5.2 para o experimento. 


Tabela 5.2: Modelo teórico para o Exemplo 5.2. 


Sexo 

M 

H 

Total 

Freqüência teórica 

2/5 

3/5 

1 


Dos exemplos acima, verificamos que todo experimento ou fenômeno que envolva 
um elemento casual terá seu modelo probabilístico especificado quando estabelecermos: 

(a) um espaço amostrai, Q, que consiste, no caso discreto, da enumeração (finita 
ou infinita) de todos os resultados possíveis do experimento em questão: 

Q = {co 1( co 2 , ..., co n , ...} 

(os elementos de Q são os pontos amostrais ou eventos elementares ); 

(b) uma probabilidade, P( co), para cada ponto amostrai, de tal sorte que seja possível 
encontrar a probabilidade P(A) de qualquer subconjunto A de Q, isto é, a proba¬ 
bilidade do que chamaremos de um evento aleatório ou simplesmente evento. 

Para ilustrar graficamente eventos, é costume utilizar-se os mesmos diagramas comumente 
usados na teoria dos conjuntos. Veja Morettin et al. (2005). Na Figura 5.1 ilustramos por um 
quadrado o espaço amostrai, por círculos os eventos A e B e por pontos os pontos amostrais. 

Figura 5.1 : Espaço amostrai e eventos 
aleatórios. 
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Exemplo 5.3. Lançamos uma moeda duas vezes. Se C indicar cara e R indicar coroa, 
então um espaço amostrai será 

Q = {co lf co 2 , co 3 , co 4 } 

onde coj = (C, C ), co 2 = (C, R), co 3 = (R, C ), co 4 = (R, R). É razoável supor que cada ponto 
co ( tenha probabilidade 1/4, se a moeda for perfeitamente simétrica e homogênea. 

Se designarmos por 4 o evento que consiste na obtenção de faces iguais nos dois 
lançamentos, então 

P(A)=P {oo lf co 4 } = 1/4 + 1/4 = 1/2. 

De modo geral, se A for qualquer evento de Q, então 

P(A)=lP( CO;), (5.1) 

onde a soma é estendida a todos os pontos amostrais cd. e/l. 

Exemplo 5.4. Uma fábrica produz determinado artigo. Da linha de produção são reti¬ 
rados três artigos, e cada um é classificado como bom (B) ou defeituoso (D). Um 
espaço amostrai do experimento é 

Q = {BBB, BBD, BDB, DBB, DDB, DBD, BDD, DDD}. 

Se A designar o evento que consiste em obter dois artigos defeituosos, então 
A = {DDB, DBD, BDD}. 

Exemplo 5.5, Considere o experimento que consiste em retirar uma lâmpada de um lote 
e medir seu "tempo de vida" antes de se queimar. Um espaço amostrai conveniente é 

Q = {t e IR : t > 0}, 

isto é, o conjunto de todos os números reais não negativos. Se A indicar o evento "o 
tempo de vida da lâmpada é inferior a 20 horas", então A = {t: 0 =s t < 20}. Esse é 
um exemplo de um espaço amostrai contínuo, contrastado com os anteriores, que 
são discretos. 


3lemas 


1. Uma urna contém duas bolas brancas (8) e três bolas vermelhas (V). Retira-se uma bola 
ao acaso da urna. Se for branca, lança-se uma moeda; se for vermelha, ela é devolvida 
à urna e retira-se outra. Dê um espaço amostrai para o experimento. 


2. Lance um dado até que a face 5 apareça pela primeira vez. Enumere os possíveis resulta¬ 
dos desse experimento. 


3. Três jogadores A, B e C disputam um torneio de tênis. Inicialmente, A joga com Be o 
vencedor joga com C, e assim por diante. O torneio termina quando um jogador ganha 
duas vezes em seguida ou quando são disputadas, ao todo, quatro partidas. Quais são 
os resultados possíveis do torneio? 
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4. Duas moedas são lançadas. Dê dois possíveis espaços amostrais para esse experimento. 

Represente um deles como o produto cartesiano de dois outros espaços amostrais 

(ver Morettin etal., 1999, para o conceito de produto cartesiano). 

5. Uma moeda e um dado são lançados. Dê um espaço amostrai do experimento e depois 

represente-o como produto cartesiano dos dois espaços amostrais, correspondente aos 

experimentos considerados individualmente. 

6. Defina um espaço amostrai para cada um dos seguintes experimentos aleatórios: 

(a) Lançamento de dois dados; anota-se a configuração obtida. 

(b) Numa linha de produção conta-se o número de peças defeituosas num intervalo de 
uma hora. 

(c) Investigam-se famílias com três crianças, anotando-se a configuração segundo o sexo. 

(d) Numa entrevista telefônica com 250 assinantes, anota-se se o proprietário tem ou 
não máquina de secar roupa. 

(e) Mede-se a duração de lâmpadas, deixando-as acesas até que se queimem. 

(f) Um fichário com dez nomes contém três nomes de mulheres. Seleciona-se ficha após 
ficha, até o último nome de mulher ser selecionado, e anota-se o número de fichas 
selecionadas. 

(g) Lança-se uma moeda até aparecer cara e anota-se o número de lançamentos. 

(h) Um relógio mecânico pode parar a qualquer momento por falha técnica. Mede-se o 
ângulo (em graus) que o ponteiro dos segundos forma com o eixo imaginário orien¬ 
tado do centro ao número 12. 

(i) Mesmo enunciado anterior, mas supondo que o relógio seja elétrico e, portanto, seu 
ponteiro dos segundos mova-se continuamente. 

(j) De um grupo de cinco pessoas {A, B, C, D, E}, sorteiam-se duas, uma após outra, 
com reposição, e anota-se a configuração formada. 

(l) Mesmo enunciado que (j), sem reposição. 

(m) Mesmo enunciado que (j), mas as duas selecionadas simultaneamente. 

(n) De cada família entrevistada numa pesquisa, anotam-se a classe social a que perten¬ 
ce (A, B, C, D ) e o estado civil do chefe da família. 

5.2 Algumas Propriedades 

Sendo o modelo probabi Iístico um modelo teórico para as freqüências relativas, de 
suas propriedades podemos obter algumas das propriedades das probabilidades, que 
estudaremos a seguir. 

Como a freqüência relativa é um número entre 0 e 1, temos que 

0<P{A)<1, (5.2) 

para qualquer evento A. Será útil considerar o espaço todo Qeo conjunto vazio 0 como 
eventos. O primeiro é denominado evento certo e 0 segundo, evento impossível, e temos 

P( Q) = 1, P(0) =0. 


(5.3) 
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Exemplo 5.6. Na Tabela 5.3 temos dados referentes a alunos matriculados em quatro 
cursos de uma universidade em dado ano. 


Tabela 5.3: Distribuição de alunos segundo o sexo e escolha de curso. 


—_ Sexo 

Curso ~~ —— 

Homens 

(H) 

Mulheres 

(F) 

Total 

Matemática Pura (M) 


70 


40 

110 

Matemática Aplicada (A) 


15 


15 | 

30 

Estatística ( E) 


10 


20 

30 

Computação (C) 


20 


10 

30 

Total 

115 

85 

200 


Vamos indicar por M o evento que ocorre quando, escolhendo-se ao acaso um 
aluno do conjunto desses quatro cursos, ele for um estudante de Matemática Pura. A, 
E, C, H e F têm significados análogos. Dessa maneira, vemos que P(E) = 30/200, ao 
passo que P(H) = 115/200. 

Dados os eventos A e H, podemos considerar dois novos eventos: 

• A U H, chamado a reunião de A e H, quando pelo menos um dos eventos ocorre; 

• A n H, chamado a intersecção de A e H, quando A e H ocorrem simultaneamente. 
É fácil ver que P(A n H ) = 15/200, pois o aluno escolhido terá de estar, ao mesmo 

tempo, matriculado no curso de Matemática Aplicada e ser homem. 

Vemos que P(A) = 30/200 e P(H) = 115/200; suponha que nosso cálculo para 
P[A UH) fosse 

P(A UH) =P(A) +P(H) = 2õõ + 2ÕÕ = 2ÕÕ' 


Se assim o fizéssemos, estaríamos contando duas vezes os alunos que são homens 
e estão matriculados no curso de Matemática Aplicada, como destacado na Tabela 5.3. 
Portanto, a resposta correta é 


P(A UH) = P (A) + P (H ) - P (A D H)= 


_ 130 
200 


No entanto, considerando-se os eventos A e C, vemos que P(A) = 30/200, P(C) = 30/200 
eP(A U C) = 60/200 =P(A) + P(C). Nesse caso, os eventos A e C são disjuntos ou mutua¬ 
mente exclusivos, pois se A ocorre, então C não ocorre e vice-versa. Aqui, A n C = 0 e 
P(A n C) =0. 

Portanto, se U eV são dois eventos quaisquer, teremos a chamada regra da adição 
de probabilidades 

P(U U V) =P(U ) +P(V) - P(U n V), (5.4) 

que se reduz a 

P(U U V) = P(U ) +P(V), 

se U eV são eventos mutuamente exclusivos. Veja o Problema 58. 


(5.5) 























108 


CAPÍTULO 5 — PROBABILIDADES 


Suponha, agora, que estejamos somente interessados em saber se um estudante es¬ 
colhido ao acaso está matriculado como aluno de Matemática Pura, Aplicada, Estatística 
ou Computação, não interessando saber se é homem ou mulher. Seja B = M Uf U C. 
Então A u B = QeA n B = 0 . Dizemos que A efi são complementares e P (A) = 30/200, 
P(B) = 110/200 + 30/200 + 30/200 = 170/200, isto é, P(A) + P(B) = 1. 

De modo geral, vamos indicar por A c 0 complementar de um evento qualquer A, e 
teremos então 


P(A) + P (A c ) =1. 


(5.6) 


As operações de reunião, intersecção e complementação entre eventos possuem proprie¬ 
dades análogas àquelas válidas para operações entre conjuntos. Ver Morettin et al. (2005). 
Por exemplo: 


(a) (A n B) c = A c U B c 

(b) (A U B) c =A C n B c 

(c) A n 0 =0, A n Q =A 

(d) 0 C = Q, Q c =0 


(e) A n A c =0 

(f) A U A c =Q 

(g) A U 0 = A, A U0=0 

(h) A n (B u C) =(A n B) u (A n c) 


Vejamos um exemplo de aplicação das propriedades das probabilidades. 

Exemplo 5.7 Consideremos um experimento aleatório e os eventos A e B associados, 
tais que P(A) = 1/2, P(B) = 1/3 e P(A n B) = 1/4. Então temos: 

(a) Pm = 1 - P(A) =1- 1/2 =1/2; 

P[B C ) = 1 - P(B) = 1 - 1/3 = 2/3. 

(b) P(A U B) =P(A) + P(B) - P(A n B ) =1/2 +1/3 - 1/4 =7/12. 

(c) P(A C n B c ) =P[(A U B) c ] = 1 - P(A U B) =1 - 7/12 = 5/12. 

(d) P(A c u B c ) = p [ (A ne) c ] =i-P(Ane)=i -1/4 = 3 / 4 . 

(e) Calculemos P(A c n B), isto é, a probabilidade de que ocorra B e não ocorra A. 
Podemos escrever 


B =(A n B) U (A c n 8), 

ou seja, B pode ocorrer com A ou (exclusivo) com A c . Logo, 

P (B) = P (A n B) +P(A C n 8), 

do que decorre 

P(A C n B)=P(B)-P(A n 8 ) = 1/3 - 1/4 = 1/12. 


Consideremos, agora, uma situação historicamente importante, a saber, aquela em 
que temos um espaço amostrai finito, Q = {co v ..., co n }, em que todos os pontos têm a 
mesma probabilidade l/n. Se A for um evento contendo m pontos amostrais, então 



Nesse caso, não é necessário explicitar completamente Q e A, bastando calcular m e n, 
chamados, respectivamente, número de casos favoráveis e número de casos possíveis. Para 
tanto, são usados os métodos clássicos de contagem da análise combinatória. Um princípio 
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fundamental de contagem nos diz que, se uma tarefa pode ser executada em duas etapas, a 
primeira podendo ser realizada de p maneiras e a segunda de q maneiras, então as duas podem 
ser realizadas simultaneamente de pq maneiras. Esse é o chamado princípio multiplicativo. 


Exemplo 5.8. Suponha que num lote com 20 peças existam cinco defeituosas. Esco¬ 
lhemos quatro peças do lote ao acaso, ou seja, uma amostra de quatro elementos, de 
modo que a ordem dos elementos seja irrelevante. 

Dessa maneira, o número de amostras com quatro elementos que podemos extrair do 

lote é ^°j, ou seja, combinações de 20 elementos, tomados quatro a quatro. Suponha que 
queiramos calcular a probabilidade de se escolher duas defeituosas na amostra. Pelo visto 
acima, (^j é o número de pontos do espaço amostrai. Seja A o evento que consiste em esco¬ 


lher duas defeituosas na amostra. Segue-se que m = 


2X2 5 


, pois podemos escolher na 


amostra de quatro elementos duas defeituosas e duas não-defeituosas simultaneamente de 
maneiras, usando 0 princípio multiplicativo. Logo, 


2 A 2 


P(A) = 


= 0,217. 


Exemplo 5.9. O jogo da M egasena consiste em escolher 6 dezenas dentre as 60 dezenas (01, 
02,..., 59, 60). O jogador pode marcar num cartão de 6 a 15 dezenas. Os custos (em reais) de 
cada jogo estão relacionados abaixo. 


Dezenas 

Custo 

6 

1,00 

7 

7,00 

8 

28,00 

9 

84,00 

10 

210,00 

11 

462,00 

12 

924,00 

13 

1.716,00 

14 

3.005,00 

15 

5.005,00 


Temos, ao todo, (^j = 50.063.860 possibilidades. Portanto, com um jogo único de 

R$ 1,00 (seis dezenas), a probabilidade de ganhar 0 prêmio máximo é 1/ ^j, ou seja, aproxi¬ 
madamente, uma chance em 50 milhões. Por quê 0 jogo com 7 dezenas custa R$ 7,00? Porque 
com 7 dezenas podemos formar Q = 7 jogos de 6 dezenas. Ou seja, fazer um jogo com 
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7 dezenas ou 7 jogos com 6 dezenas são ações equivalentes, em termos de probabilidade de 
ganhar. Do mesmo modo, um jogo de 15 dezenas custa R$ 5.005,00, porque com 15 deze¬ 
nas podemos formar f^j = 5.005 jogos de 6 dezenas. Portanto, é mais fácil preencher um 

boleto com 15 dezenas do que 5.005 boletos com 6 dezenas, já que as probabilidades 
associadas são iguais. 


emas 


7. No Problema 4, liste os eventos: 

(a) pelo menos uma cara; 

(b) duas caras; 

(c) o complementar do evento em (b). 

8. Expresse em termos de operações entre eventos: 

(a) A ocorre mas B não ocorre; 

(b) exatamente um dos eventos/4 eB ocorre; 

(c) nenhum dos dois eventos A e B ocorre. 

9. No espaço amostrai do Problema 3, atribua a cada ponto contendo k letras a probabili¬ 
dade l/2 k (assim, AA tem probabilidade 1/4). 

(a) Mostre que a soma das probabilidades dos pontos do espaço amostrai é 1. 

(b) Calcule a probabilidade de que A vença (um jogador vence quando ganha duas 
partidas seguidas). Em seguida, calcule a probabilidade de que B vença. 

(c) Qual a probabilidade de que não haja decisão? 

10. No Problema 2, suponha que 5 indique o aparecimento da face 5 e Q indique que 
apareceu outra face qualquer diferente da 5. Atribua probabilidade (5/6) k (1/6) a cada 
ponto com k letras iguais a Q seguidas de 5. 

(a) Mostre que a soma das probabilidades dos pontos amostrais é igual a um (aqui você 
deve usar o resultado da soma dos termos de uma seqüência geométrica infinita). 

(b) Calcule a probabilidade de que a face 5 apareça após três lançamentos do dado. 

11. Dentre seis números positivos e oito negativos, dois números são escolhidos ao acaso 
(sem reposição) e multiplicados. Qual a probabilidade de que o produto seja positivo? 

12. Considere o lançamento de dois dados. Considere os eventos: A = soma dos números 
obtidos igual a 9, e B = número no primeiro dado maior ou igual a 4. Enumere os 
elementos de4 e B. Obtenha A U 8, A D B e A c . 

13. Obtenha as probabilidades dos eventos que aparecem nos Problemas 7 e 12. 

14. Que suposições devem ser feitas para que os resultados dos experimentos abaixo possam 
ser considerados eqüiprováveis? 

(a) Lançamento de um dado. 

(b) Opinião de moradores de uma cidade sobre um projeto governamental. 

(c) Preço de uma ação no fim da próxima semana. 
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5.3 Probabilidade Condicional e Independência 


Voltemos à Tabela 5.3 do Exemplo 5.6. Dado que um estudante, escolhido ao acaso, 
esteja matriculado no curso de Estatística, a probabilidade de que seja mulher é 20/30 = 2/3. 
Isso porque, do total de 30 alunos que estudam Estatística, 20 são mulheres. Escrevemos 

2 

P (mulher IEstatística) = j . 


Para dois eventos quaisquer A e B, sendo P(B) > 0, definimos a probabilidade 
condicional de A dado B, P(A\B), como sendo 


p(Ale) 


p(a n B) 
P(B) 


(5.7) 


Para o exemplo mencionado, s e B e A indicam, respectivamente, os eventos "aluno 
matriculado em Estatística" e "aluno é mulher", então 


como havíamos obtido. 


p (Ale) 


20/200 _ 2 
30/200 3 ’ 


Observe que P(A) = P (mulher) = 85/200 = 17/40, e com a informação de que B 
ocorreu (o aluno é matriculado em Estatística), obtemos P(Alfi) = 2/3. Podemos dizer 
que P(A) é a probabilidade a priori de A e, com a informação adicional de que B 
ocorreu, obtemos a probabilidade a posteriori P(Alfi). Note que, nesse caso, P(Alfi) > 
P(A), logo a informação de que B ocorreu aumentou a chance de A ocorrer. 

Da relação (5.7) obtemos a chamada regra do produto de probabilidades, 

P(A n B) = P (B) P (A \B). (5.8) 


Exemplo 5.10. Uma urna contém duas bolas brancas (B) e três vermelhas (V). Suponha 
que são sorteadas duas bolas ao acaso, sem reposição. Isso significa que escolhemos a 
primeira bola, verificamos sua cor e não a devolvemos à urna; misturamos as bolas restan¬ 
tes e retiramos a segunda. O diagrama em árvore da Figura 5.2 ilustra as possibilidades. 
Em cada "galho" da árvore estão indicadas as probabilidades de ocorrência, sendo que 
para as segundas bolas as probabilidades são condicionais. A probabilidade do resultado 
conjunto é dada, então, por (5.8). Veja a Tabela 5.4. 


Figura 5.2: Diagrama em árvore para a extração de 
duas bolas de uma urna, sem reposição. 
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Se A indicar o evento "bola branca na segunda extração", então 

P(A) = P(BB) +P(VB ) = — +— =— . 

20 20 5 

Tabela 5.4: Resultados e probabilidades para o 
experimento do Exemplo 5.10. 


Resultados 

Probabilidades 

BB 

2/5x1/4 = 2/20 

BV 

2/5x3/4 = 6/20 

VB 

3/5 x 2/4 =6/20 

VV 

3/5x2/4 = 6/20 

Total 

1 


Exemplo 5.11. Imagine, agora, que as duas extrações são feitas da mesma urna do 
exemplo anterior, mas a primeira bola é reposta na urna antes da extração da segun¬ 
da. Nessas condições, as extrações são independentes, pois o resultado de uma ex¬ 
tração não tem influência no resultado da outra. Obtemos a situação da Figura 5.3 e 
da Tabela 5.5. 


Figura 5.3: Diagrama em árvore para a extração de 
duas bolas de uma urna, com reposição. 



Tabela 5.5: Resultados e probabilidades para o 
experimento do Exemplo 5.11. 


Resultados 

Probabilidades 

BB 

2/5x2/5=4/25 

BV 

2/5x3/5=6/25 

VB 

3/5x2/5=6/25 

VV 

3/5x3/5=9/25 

Total 

1 


Observe que, aqui, 

P (branca na 2 â I branca na l â ) = 2/5 = P (branca na 2 a ), 
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ou seja, se indicarmos por A e B os eventos "bola branca na segunda extração" e "bola 
branca na primeira extração", respectivamente, então P(A|B) =P(A). Nesse caso, dize¬ 
mos que o evento A independe do evento B e, usando (5.8), temos 

P(A n B) =P(A) P(B). (5.9) 

É fácil ver que se A independe de B, então B independe de A — dizemos que A e B 
são independentes. A fórmula (5.9) pode ser tomada como definição de independência 
entre dois eventos, ou seja, A e B são independentes se, e somente se, (5.9) for válida. 

Exemplo 5.12. Considere ainda a urna dos dois exemplos anteriores, mas vamos fazer três 
extrações sem reposição. Indiquemos por V. ou fi ( a obtenção de bola vermelha ou branca 
na i-ésima extração, respectivamente, / = 1, 2, 3. Obtemos a Figura 5.4 e a Tabela 5.6. 


Figura 5.4: Diagrama em árvore para a extração de 
três bolas de uma urna, sem reposição. 



Tabela 5.6: Resultados e probabilidades para o experi¬ 
mento do Exemplo 5.12. 


Resultados 

Probabilidades 

b ] b 2 v 3 

2/5 x 1/4x1 =2/20=6/60 

b,v 2 b 3 

2/5x3/4x1/3 = 6/60 

B\V 2 V 3 

2/5 x 3/4 x 2/3= 12/60 

v,b 2 b 3 

3/5x2/4x1/3 = 6/60 

v,b 2 v 3 

3/5 x 2/4 x 2/3= 12/60 

v,v 2 b 3 

3/5 x 2/4 x 2/3= 12/60 

V,v 2 v 3 

3/5x2/4x1/3 = 6/60 

Total 

60/60=1 


Observe que P(6 2 |6 x ) = 1/4, ao passo que P(V 3 \B 1 n B 2 ) = 1; daí, 

P(B 1 n b 2 n v 3 ) = p(b 1 ) p(b 2 \b 1 ) p(V 3 \b 1 n e 2 ) =2/5 x 1/4 x 1 =1/10. 
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De modo geral, dados três eventos A, B e C, temos que 

p{a n b nc) =p(a) p[b\a) p(c\a ne). ( 5 . 10 ) 

Essa relação pode ser estendida para um número finito qualquer de eventos. Veja o 
Problema 60. 

Exemplo 5 . 13 . A teoria da confiabilidade estuda sistemas e seus componentes, como 
por exemplo sistemas mecânicos e eletrônicos (um automóvel ou um computador) e 
sistemas biológicos, como o corpo humano. O objetivo da teoria é estudar as relações 
entre o funcionamento dos componentes e do sistema. A Figura 5.5 (a) ilustra um 
sistema composto de dois componentes ligados em série. 


Figura 5.5: Sistema com dois componentes (a) em série (b) em paralelo. 



O sistema da figura funcionará se os componentes 1 e 2 funcionarem simultanea¬ 
mente. Se um dos componentes falhar, o sistema também falhará. Supondo que os 
componentes funcionem independentemente, e se p ( for a probabilidade de o compo¬ 
nente i (/ = 1,2) funcionar, então a probabilidade de o sistema funcionar será 

p(F) =P(A 1 D A 2 ) =p(a 1 )p(a 2 ) = p 1 p 2 , 

onde indicamos por F o evento "o sistema funciona" e por A j o evento "o componente 
/ funciona", i = 1, 2. 

A probabilidade p ( é a chamada confiabilidade do componente i e P(F) = h(p v p 2 ) 
= p L p 2 a confiabilidade do sistema. 

Se os componentes 1 e 2 estiverem em paralelo, como na Figura 5.5 (b), então o 
sistema funcionará se pelo menos um dos dois componentes funcionar. Ou seja, 

P (F ) = P (A, U A 2 ) = P (AJ + P (A 2 ) -P(A 1 n A 2 ) = p 2 +p 2 - P,P 2 
e a confiabilidade do sistema é h(p v p 2 ) = p 2 + p 2 - p 1 p 2 . 

Vejamos agora o conceito de independência para três eventos: dizemos que os 
eventos A, B e C são independentes se, e somente se, 

P(A n B) =P(A) P(B), 

P [A n C) =P(A) P(C), 

P(B n C) =P(B) P(C), 

P (A n B n C) =P(A) P(B) P(C). 


(5.11) 
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Se apenas as três primeiras relações de (5.11) estiverem satisfeitas, dizemos que os even¬ 
tos A, B e C são mutuamente independentes. É possível que três eventos sejam mutuamente 
independentes, mas não sejam completamente independentes. Veja o Problema 59. 

A definição pode ser estendida facilmente para um número finito qualquer de eventos. 
Veja o Problema 61. 


emas 


15. Considere uma urna contendo três bolas pretas e cinco bolas vermelhas. Retire duas 
bolas da urna, sem reposição. 

(a) Obtenha os resultados possíveis e as respectivas probabilidades. 

(b) Mesmo problema, para extrações com reposição. 

16. No problema anterior, calcule as probabilidades dos eventos: 

(a) Bola preta na primeira e segunda extrações. 

(b) Bola preta na segunda extração. 

(c) Bola vermelha na primeira extração. 

17. A probabilidade de que A resolva um problema é de 2/3, e a probabilidade de que B o 
resolva é de 3/4. Se ambos tentarem independentemente, qual a probabilidade de o 
problema ser resolvido? 

18. Um dado é viciado, de tal forma que a probabilidade de sair um certo ponto é proporcional 
ao seu valor (por exemplo, o ponto 6 é três vezes mais provável de sair do que o ponto 2). 
Calcular: 

(a) a probabilidade de sair 5, sabendo-se que o ponto que saiu é ímpar; 

(b) a probabilidade de tirar um número par, sabendo-se que saiu um número maior que 3. 

19. As probabilidades de que dois eventos independentes ocorram são p eq, respectivamen¬ 
te. Qual a probabilidade: 

(a) de que nenhum desses eventos ocorra? 

(b) de que pelo menos um desses eventos ocorra? 

20. Na figura ao lado temos um sistema com três componentes fun¬ 
cionando independentemente, com confiabilidades p y p 2 e p 3 . 

Obtenha a confiabilidade do sistema. 

21. Na tabela abaixo, os números que aparecem são probabilidades relacionadas com a 
ocorrência de A, B, A Cl B etc. Assim, P(A) =0,10, enquanto P(A fl B) =0,04. 



B 

B° 

Total 

A 

0,04 

0,06 

0,10 

A c 

0,08 

0,82 

0,90 

Total 

0,12 

0,88 

1,00 



Verifique se A e B são independentes. 
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22. Supondo que todos os componentes do sistema da figura ao lado te¬ 
nham a mesma confiabilidade p e funcionem independentemente, ob¬ 
tenha a confiabilidade do sistema. 

5.4 O Teorema de Bayes 

Uma das relações mais importantes envolvendo probabilidades condicionais é 
dada pelo Teorema de Bayes. A versão mais simples desse teorema é dada pela 
fórmula (5.12): 



P(A|B) 


P (A n B) P (A) ■ P (B\A) 
P (B ) P [B ) 


(5.12) 


Como salientamos na seção anterior, temos a probabilidade inicial P(A) e, dada a infor¬ 
mação de que B ocorreu (ou dada a suposição de que B venha a ocorrer), obtemos a proba¬ 
bilidade a posteriori P(A\B), dada por (5.12). Ou seja, atualizamos a probabilidade inicial, 

multiplicando-a por . Observe que P(A\B) > P(A) se P(B\A) > P(B). 

P(B) 

A forma geral do Teorema de Bayes será introduzida por um exemplo. 


Exemplo 5.14. Temos cinco urnas, cada uma com seis bolas. Duas dessas urnas 
(tipo C 3 ) têm 3 bolas brancas, duas outras (tipo C 2 ) têm 2 bolas brancas, e a última 
urna (tipo C 3 ) tem 6 bolas brancas. Escolhemos uma urna ao acaso e dela retiramos 
uma bola. Qual a probabilidade de a urna escolhida ser do tipo C 3 , sabendo-se que a 
bola sorteada é branca? 

Na Figura 5.6 temos esquematizados o espaço amostrai e os eventos de interesse. 


Figura 5.6: Espaço amostrai e eventos para o 
Exemplo 5.14. 



Queremos encontrar P(C 3 |B), sabendo que 

P(C 3 ) = 2/5, PIBICJ =1/2, 
P[C 2 ) =2/5, P(B\C 2 ) =1/3, 
P(C 3 ) = 1/5, P(8|C 3 ) = 1. 
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Da definição de probabilidade condicional, temos 

Dir 10 4 - P(C 3 n B) _ P(C 3 )P(BIC 3 ) (5.13) 

1 3 ‘ ' P(B) P (B) 

A segunda igualdade é devida à fórmula (5.8). 

Precisamos encontrar o valor de P[B), já que o numerador é conhecido. Como C v 
C 2 e C 3 são eventos mutuamente exclusivos, e reunidos formam o espaço amostrai 
completo, podemos decompor o evento B na reunião de três outros, também mutua¬ 
mente exclusivos, como segue (ver também a Figura 5.6): 

b =(C 3 n B) u (C 2 n B) u (C 3 n s), (5.14) 

e então 

P(B) =P(C 3 n B) + P(C 2 n B) + P(C 3 n B) 

= P(C 1 )P(BIC 1 ) +P(C 2 ) P(B\C 2 ) + P (C 3 ) P (B\C 3 ) 



Substituindo esse resultado em (5.13), obtemos 


P(C 3 IB) = 


1/5x1 _ 3 
8/15 8 ' 


Podemos, agora, generalizar os resultados acima do seguinte modo: seja {C 1( C 2 , ..., CJ 
uma partição do espaço amostrai Q, isto é, 

Cj n Cj = 0 , sempre que / * j, 

C x U C 2 U ... UC„=Q. 

Considere um evento qualquer A em Q. Supomos conhecidas as probabilidades 
P(C,) e P(/\ |C ( ), / =1, 2. n. 

Então, temos o seguinte resultado, ilustrado pela Figura 5.7. 


Figura 5.7: Partição de um espaço amostrai. 
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Teorema 5.1 (Bayes) A probabilidade de ocorrência do evento C„ supondo-se a ocor¬ 
rência do evento A, é dada por 


P (Cj|A) 


P (C/)P (A |Cj) 

T j = 1 P (Cj)P(A|C,) ’ 


(5.15) 


para todo / = 1, 2, n. 

Podemos pensar C v ..., C n como um conjunto de hipóteses, sendo somente uma 
delas verdadeira. Dado que A ocorreu, a probabilidade inicial de C f , P(C .), é modifica¬ 
da de modo a se obter P(C ( .I/A), dada por (5.15). Passamos da probabilidade a priori 
P(C ( .) para a probabilidade a posteriori P(C ( .lA), multiplicando a primeira por 


P MIC,) 

,p (C ; )P (/\|C ; ) 


(5.16) 


Para A fixado, as probabilidades P(A|C.) em (5.15) são denominadas verossimilhan- 
ças das hipóteses C v C 2 , ..., C n . Vemos que P(C\|A) > P(C,) se (5.16) for maior do que 
um, isto é, se P(A|C\) > P(A), onde P(A) é o denominador de (5.16). Observe que esse 
denominador é uma média ponderada dos P(A|C.) e os pesos são as probabilidades 
P(C ), que têm soma unitária. Como o numerador é sempre uma das parcelas do denomi¬ 
nador P(A), torna-se indispensável o uso de um novo índice, j, na decomposição deste. 


Exemplo 5.15. Para selecionar seus funcionários, uma empresa oferece aos candidatos 
um curso de treinamento durante uma semana. No final do curso, eles são submetidos a 
uma prova e 25% são classificados como bons (B), 50% como médios (M) e os restantes 
25% como fracos (F). Para facilitar a seleção, a empresa pretende substituir o treinamen¬ 
to por um teste contendo questões referentes a conhecimentos gerais e específicos. Para 
isso, gostaria de conhecer qual a probabilidade de um indivíduo aprovado no teste ser 
considerado fraco, caso fizesse o curso. Assim, neste ano, antes do início do curso, os 
candidatos foram submetidos ao teste e receberam o conceito aprovado (A) ou reprova¬ 
do (R). No final do curso, obtiveram-se as seguintes probabilidades condicionais: 

P (A 18) =0,80, P(AIM) = 0,50, P(A|F)=0,20. 


Queremos encontrar P(F \A) e, pelo Teorema de Bayes, essa probabilidade é dada por 


P [F \A) 


_ P (A\F )P [F ) _ 

P (A\B)P(B) +P(A |M )P(M ) +P(A|F)P(F) 


_(0,20)(0,25)_ 

(0,80)(0,25) + (0,50)(0,50) + (0,20)(0,25) 


= 0 , 10 . 
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Então, apenas 10% dos aprovados é que seriam classificados como fracos durante o 
curso. De modo análogo podemos encontrar P(B|A) = 0,40 eP(M\A) = 0,50, que pode¬ 
riam fornecer subsídios para ajudar na decisão de substituir o treinamento pelo teste. 

Um gráfico em árvore pode ajudar bastante na solução de um problema envolven¬ 
do o Teorema de Bayes. Desse modo, para o Exemplo 5.15, teremos a Figura 5.8 e a 
Tabela 5.7. Assim, o numerador de P(F|A) está assinalado com um pequeno círculo, 
ao passo que o denominador é a soma das três parcelas assinaladas com asterisco. 


Figura 5.8: Diagrama em árvore para o Exemplo 5.15. 



Tabela 5.7: Resultados e probabilidades para o Exemplo 5.15. 


Resultados 

Probabilidades 

BA 

(0,25) (0,801 = 0,20* 

BR 

(0,25) (0,20)=0,05 

MA 

(0,50) (0,50) = 0,25* 

MR 

(0,50) (0,50) = 0,25 

FA 

(0,25) (0,20) = 0,05*° 

FR 

(0,25) (0,80) = 0,20 


O Teorema de Bayes, que aparentemente poderia ser encarado como mais um resulta¬ 
do na teoria de probabilidades, tem importância fundamental, pois fornece a base para 
uma abordagem da inferência estatística conhecida como inferência bayesiana. Esse pon¬ 
to será abordado brevemente no Capítulo 11. 

O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades, 
como já vimos acima. Vejamos mais um exemplo para ilustrar esse ponto. 

Exemplo 5.16. A administração de um fundo de investimentos em ações pretende 
divulgar, após o encerramento do pregão, a probabilidade de queda de um índice da 
bolsa no dia seguinte, baseando-se nas informações disponíveis até aquele momento. 
Suponha que a previsão inicial seja de 0,10. Após encerrado o pregão, nova infor¬ 
mação sugere uma alta do dólar frente ao real. A experiência passada indica que, 










120 


CAPÍTULO 5 — PROBABILIDADES 


quando houve queda da bolsa no dia seguinte, 20% das vezes foram precedidas por 
esse tipo de notícia, enquanto, nos dias em que a bolsa esteve em alta, apenas em 5% 
das vezes houve esse tipo de notícia no dia anterior. 

Chamando de £ o evento que indica "queda da bolsa", a sua probabilidade a 
priori éP(E) = 0,10, enquanto a probabilidade de alta é P(E C ) = 0,90. Se B indicar "alta 
do dólar", então as verossimilhanças são dadas por 

P (B\E) = 0,20, P (B\E C ) = 0,05. 


Logo, pelo Teorema de Bayes, teremos que 


ou seja, 


P(£|B) 


P(E) P (B\E) 

P(E )P (B |£ ) + P (E C )P (B\E C ) ' 


P(E\B ) 


( 0 , 10 )( 0 , 20 ) 

(0,10) (0,20) + (0,90) (0,05) 


0,02 _ 4 
0,065 13 


= 0,31. 


Portanto, a nova informação aumenta a probabilidade de que haja queda na bolsa 
de 10% para 31%. 

Suponha, agora, que horas depois surja nova informação relevante: o Banco Cen¬ 
tral irá reduzir a taxa de juros vigente a partir do dia seguinte. Denotando-se, agora, 
por BjO evento "alta do dólar" e por B 2 o evento "queda na taxa de juros", o interesse 
será saber como essa nova informação, B 2 , afetará a probabilidade calculada, P(E |S 1 ). 
Segue-se que essa é agora a probabilidade a priori para £ com respeito a B r 

Novamente, informações passadas mostram que, dado que tenha havido alta do 
dólar e queda da bolsa, 10% das vezes foram precedidas por notícias de queda de juros, 
enquanto, dado que tenha havido alta do dólar e alta da bolsa, 60% das vezes foram 
precedidas de queda dos juros. Então, as verossimilhanças agora serão dadas por 

P(B 2 |£, BJ = 0,10, P(B 2 \E c , BJ = 0,60. 

O Teorema de Bayes fica escrito agora na forma 


P(E\B V B 2 ) 
do que segue que 

P(£ \B r B 2 ) 


_ P(E IBJ P(5 2 |£, BJ_ 

P (£ IBj) P (B 2 |£, BJ +P(E c \B 1 ) P(B 2 \E c , BJ ' 

(o,3i)(o,io) = orm = n 07 

(0,31)(0,10) + (0,69)(0,60) 0,445 ' ' 


Ou seja, a informação fi 2 causa um decréscimo na probabilidade de queda da bolsa, 
de 0,31 para 0,07, que é menor ainda do que a probabilidade a priori inicial, P(E) = 0,10. 

Observe que a probabilidade P(£|fi 1( fi 2 ) pode ser escrita também como P(E l*i n e 2 )- 
ou seja, temos a ocorrência simultânea dos eventos B } e B 2 . 









5.5 PROBABILIDADES SUBJETIVAS 


121 




emas 


23. Uma companhia produz circuitos em três fábricas, 1,11 e 111. A fábrica I produz 40% dos 
circuitos, enquanto a 11 e a 111 produzem 30% cada uma. As probabilidades de que um 
circuito integrado produzido por essas fábricas não funcione são 0,01, 0,04 e 0,03, res¬ 
pectivamente. Escolhido um circuito da produção conjunta das três fábricas, qual a pro¬ 
babilidade de o mesmo não funcionar? 

24. Considere a situação do problema anterior, mas suponha agora que um circuito escolhido 
ao acaso seja defeituoso. Determine qual a probabilidade de ele ter sido fabricado por I. 

25. A urna I contém duas bolas pretas e três brancas, ao passo que a urna II contém três 
bolas pretas e três brancas. Escolhemos uma urna ao acaso e dela extraímos uma bola 
que tem cor branca. Se a bola é recolocada na urna, qual é a probabilidade de se retirar 
novamente uma bola branca da mesma urna? 

5.5 Probabilidades Subjetivas 

Na seção 5.1 vimos como associar probabilidades a eventos. Utilizamos um enfoque 
chamado freqüentista, pois se baseia na estabilidade das freqüências relativas e no fato 
de podermos, hipoteticamente, repetir um experimento várias vezes. Mas é óbvio que 
nem sempre podemos considerar replicações. Suponha que queiramos calcular a proba¬ 
bilidade de chover no dia 12 de janeiro do próximo ano, na cidade de São Paulo. Evi¬ 
dentemente, se considerarmos o evento A = chover em São Paulo no dia 12 de janeiro do 
próximo ano, ele não pode ser replicado. O que poderemos eventualmente considerar é 
em quantos dias 12 de janeiro de anos anteriores choveu e calcular uma freqüência 
relativa. Se tivermos essa informação, ela evidentemente poderá ser usada. Mas suponha 
que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade. Se ela não 
tiver informação sobre o tempo em São Paulo, poderá simplesmente dizer que essa pro¬ 
babilidade é de 1/2. Por outro lado, uma pessoa vivendo em São Paulo terá informações 
adicionais. Por exemplo, saberá que normalmente janeiro, fevereiro e março são meses 
com muita chuva. Esse morador de São Paulo poderá arriscar uma probabilidade, diga¬ 
mos de 2/3 para o evento A. Vemos, portanto, que a associação de probabilidades a um 
evento depende de cada indivíduo, de sua informação a respeito desse evento. Esse tipo 
de apreciação é particularmente recomendável quando o indivíduo julga que as replicações 
anteriores não sejam comparáveis com a próxima. Por exemplo, o fenômeno El Nino 
pode ter ocorrido com grande intensidade em janeiro de 1999, provocando muita chuva 
no sudeste do Brasil, e sua intensidade nos anos seguintes talvez seja menor. 

Respostas a questões como essa envolvem o que chamamos de probabilidade sub¬ 
jetiva. Ou seja, cada indivíduo, baseado em informações anteriores e na sua opinião 
pessoal a respeito do evento em questão, pode ter uma resposta para a probabilidade 
desse evento. A Inferência Bayesiana, de que trataremos brevemente neste livro (veja 
o Capítulo 11), toma como uma de suas bases o fato de que todas as probabilidades 
são subjetivas. O Teorema de Bayes tem papel importante nesse tipo de inferência, 
pois passa a ser visto como um mecanismo de atualização de opiniões. Ou seja, o 
indivíduo aprende B e passa a ter opinião P(A|B) sobre A. 
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Um ingrediente básico quando se associam probabilidades é a coerência. Se um indivíduo 
julgar que um evento A é mais provável que seu complementar, então ele deverá, como que 
apostando na ocorrência de A, associar uma probabilidade maior do que 1/2 ao evento A. Por 
exemplo, se ele julgar que uma proporção 3:1a favor de A é razoável, então ele deverá sugerir 
P(A) = 3/4. A fórmula de Bayes fornece uma maneira coerente de atualizar opiniões. 

As probabilidades associadas a eventos de modo subjetivo têm propriedades aná¬ 
logas àquelas vistas em seções anteriores e podem ser obtidas a partir do princípio da 
coerência. Há outras maneiras de se associar probabilidades a eventos e os interessa¬ 
dos poderão consultar 0'Hagan (1994), por exemplo, para obter mais informações 
sobre esse assunto e outros ligados à Inferência Bayesiana. 

5.6 Problemas e Complementos 

26. Um restaurante popular apresenta apenas dois tipos de refeições: salada completa ou um prato 
à base de carne. Considere que 20% dos fregueses do sexo masculino preferem a salada, 30% 
das mulheres escolhem carne, 75% dos fregueses são homens e os seguintes eventos: 

H: freguês é homem A: freguês prefere salada 

M : freguês é mulher B: freguês prefere carne 

Calcular: 

(a) P(H ), P(A\H ),P(B\M ); (b) P(A n H ), P(A U H ); (c)P(M\A). 

27. Uma companhia de seguros analisou a freqüência com que 2.000 segurados (1.000 homens 
e 1.000 mulheres) usaram o hospital. Os resultados são apresentados na tabela: 



Homens 

Mulheres 

Usaram o hospital 

100 

150 

Não usaram o hospital 

900 

850 


(a) Qual a probabilidade de que uma pessoa segurada use o hospital? 

(b) O uso do hospital independe do sexo do segurado? 

28. As probabilidades de três motoristas serem capazes de guiar até em casa com segurança, 
depois de beber, são de 1/3, 1/4 e 1/5, respectivamente. Se decidirem guiar até em casa, 
depois de beber numa festa, qual a probabilidade de todos os três motoristas sofrerem aciden¬ 
tes? Qual a probabilidade de pelo menos um dos motoristas guiar até em casa a salvo? 

29. Duas lâmpadas queimadas foram acidentalmente misturadas com seis lâmpadas boas. Se 
vamos testando as lâmpadas, uma por uma, até encontrar duas defeituosas, qual é a 
probabilidade de que a última defeituosa seja encontrada no quarto teste? 

30. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em outra, cada 
uma tendo apenas um ganhador. Um homem tem 100 bilhetes de cada. Qual a proba¬ 
bilidade de que: 

(a) ele ganhe exatamente um prêmio? 

(b) ele ganhe alguma coisa? 
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31. Uma companhia de seguros vendeu apólices a cinco pessoas, todas da mesma idade e 
com boa saúde. De acordo com as tábuas atuariais, a probabilidade de que uma pessoa 
daquela idade esteja viva daqui a 30 anos é de 2/3. Calcular a probabilidade de que 
daqui a 30 anos: 

(a) exatamente duas pessoas estejam vivas; 

(b) todas as pessoas estejam vivas; e 

(c) pelo menos três pessoas estejam vivas. 

(Indique as suposições necessárias para a resolução do problema.) 

32. Num teste com duas marcas que lhe são apresentadas em ordem aleatória, um 
experimentador de vinhos faz três identificações corretas em três tentativas. 

(a) Qual a probabilidade de isso ocorrer, se na realidade ele não possuir habilidade 
alguma para distingui-los? 

(b) E se a probabilidade de distinguir corretamente é de 90% em cada tentativa? 

33. Um grupo de 12 homens e 8 mulheres concorre a três prêmios através de um sorteio, sem 
reposição de seus nomes. Qual a probabilidade de: 

(a) nenhum homem ser sorteado? 

(b) um prêmio ser ganho por homem? 

(c) dois homens serem premiados? 

34. Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da 
parte de encanamento de um edifício. Ele acha que a probabilidade de ganhar a concor¬ 
rência da parte elétrica é de 1/2. Caso ele ganhe a parte elétrica, a chance de ganhar a 
parte de encanamento é de 3/4; caso contrário, essa probabilidade é de 1/3. Qual a proba¬ 
bilidade de ele: 

(a) ganhar os dois contratos? 

(b) ganhar apenas um? 

(c) não ganhar nada? 

35. Em média, 5% dos produtos vendidos por uma loja são devolvidos. Qual a probabilidade 
de que, das quatro próximas unidades vendidas desse produto, duas sejam devolvidas? 

36. Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independente¬ 
mente quando qualquer coisa indesejável ocorrer. Se cada alarme tem probabilidade 0,9 de 
trabalhar eficientemente, qual é a probabilidade de se ouvir o alarme quando necessário? 

37. Em uma fábrica de parafusos, as máquinas A, B e C produzem 25%, 35% e 40% do 
total, respectivamente. Da produção de cada máquina 5%, 4% e 2%, respectivamente, 
são parafusos defeituosos. Escolhe-se ao acaso um parafuso e verifica-se que é defeituoso. 
Qual a probabilidade de que o parafuso venha da máquina 4; da 8; e da C? 

38. Um fabricante afirma que apenas 5% de todas as válvulas que produz têm duração inferior 
a 20 horas. Uma indústria compra semanalmente um grande lote de válvulas desse fabri¬ 
cante, mas sob a seguinte condição: ela aceita o lote se, em dez válvulas escolhidas 
ao acaso, no máximo uma tiver duração inferior a 20 horas; caso contrário, o lote todo 
é rejeitado. 
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(a) Se o fabricante de fato tem razão, qual a probabilidade de um lote ser rejeitado? 

(b) Suponha agora que o fabricante esteja mentindo, isto é, na verdade a proporção de 
válvulas com duração inferior a 20 horas é de 10%. Qual a probabilidade de um lote 
ser aceito, segundo o critério acima? 

39. Para estudar o comportamento do mercado automobilístico, as marcas foram divididas em 
três categorias: marca F , marca l/l/, e as demais reunidas como marca X. Um estudo sobre 
o hábito de mudança de marca mostrou o seguinte quadro de probabilidade: 


Proprietário de 
carro da marca 

Probabilidade de mudança para 

W 

F 

X 

1/1/ 

0,50 

0,25 

0,25 

F 

0,15 

0,70 

0,15 

X 

0,30 

0,30 

0,40 


A compra do primeiro carro é feita segundo as seguintes probabilidades: marca 1/1/ com 
50%, marca F com 30% e marca X com 20%. 

(a) Qual a probabilidade de um indivíduo comprar o terceiro carro da marca l/l/? 

(b) Se o terceiro carro é da marca l/l/, qual a probabilidade de o primeiro também ter sido l/l/? 

40. A empresa M & B tem 15.800 empregados, classificados de acordo com a tabela abaixo. 


-.^ Sexo 

Idade 

Homens (M) 

Mulheres (F) 

Total 

< 25 anos (4) 

2.000 

800 

2.800 

25-40 anos (6) 

4.500 

2.500 

7.000 

> 40 anos (C) 

1.800 

4.200 

6.000 

Total 

8.300 

7.500 

15.800 


Se um empregado é selecionado ao acaso, calcular a probabilidade de ser ele: 

(a) um empregado com 40 anos de idade ou menos; 

(b) um empregado com 40 anos de idade ou menos, e mulher; 

(c) um empregado com mais de 40 anos de idade e que seja homem; 

(d) uma mulher, dado que é um empregado com menos de 25 anos. 

41. Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso, com 
reposição. Qual a probabilidade de que: 

(a) ambos sejam do sexo masculino; 

(b) o primeiro tenha menos de 25 anos, e o segundo seja do sexo masculino e tenha 
menos de 25 anos; 

(c) nenhum tenha menos de 25 anos. 

42. Resolva as questões (a) e (c) do Problema 41, supondo que a amostragem é feita sem 
reposição. 
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43. Numa empresa existem operários de determinada categoria, com idades iguais a a, b e c 
anos (existem pelo menos três com a mesma idade). Escolhem-se três ao acaso para que 
façam determinado curso. Se indicarmos porx a idade do primeiro, y a do segundo eZa 
do terceiro, o terno (x, y, z) indica cada possível resultado. Enumere: 

(a) o espaço amostrai; e (b) os eventos A = {(x, y, z)\x -y -z}, B = {(x, y, z) lx =y}. 

44. Os colégios A, B eC têm as seguintes porcentagens de rapazes, respectivamente: 40%, 
20% e 10%. Um desses colégios é selecionado ao acaso e oito alunos são escolhidos, 
com reposição. Se o resultado for RRRM M M M M (R para rapaz e M para moça), qual é 
a probabilidade de ter sido selecionado o colégio C ? 

45. Um inspetorda seção de controle de qualidade de uma firma examina os artigos de um lote 
que tem m peças de primeira qualidade e n peças de segunda qualidade. Uma verificação 
dos b primeiros artigos selecionados ao acaso do lote mostrou que todos eram de segunda 
qualidade (b <n- 1). Qual a probabilidade de que entre os dois próximos artigos selecio¬ 
nados, ao acaso, dos restantes, pelo menos um seja de segunda qualidade? 

46. Prove que, se A e B são independentes, também o serão A c e B c , A e B c e A c e B. 

47. Obtenha uma fórmula para P(A U B U C). 

48. Na figura abaixo temos um sistema chamado ponte. Nas mesmas condições do Problema 22, 
obtenha a confiabilidade do sistema. 



49. Considere o quadrado com vértices (0,0), (1,0), (0,1) e (1,1). Suponha que a probabilidade 
de uma região/4 (evento) seja a área dessa região. 



(a) Represente graficamente o evento A = conjunto dos pontos cuja distância à origem 
seja menor ou igual a 1. 

(b) Calcule P [A). 
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(c) Calcule a probabilidade do evento B = {(x, y) : X 3® b ou y 5* b}, onde b é um número tal 
que 0 <b <1. 

(d) Calcule P (6 c ), onde B foi definido em (c). 

50. Considere Q. como o quadrado da figura do Problema 49. Considere os eventos: 

A = {(x, y): 1/3 =£ x =s 2/3, 0 y 1/2} 

B = {(x, y) : 1/2 =£ x ^ 1,1/4 y =s 3/4}. 

Calcular P(A), P(B), P (A U B), P(A C ), P(B C ) eP(A c n B c ). 

51. Considere, agora, a situação do Problema 49, mas suponha que o quadrado não tenha 
área unitária. Como você definiria a probabilidade de um evento/4? 

52. Suponha uma população de N elementos 3 V 3 2 , -,3 N . Qualquer arranjo ordenado a, 1; a, 2 , ...,a,„ 
de n símbolos é chamado de uma amostra ordenada de tamanho n, extraída da população. 
Considere o símbolo (N) n como significando N (N - 1) ... (N - n + 1). Suponha n <N . 
Mostre que existem N" amostras com reposição (um mesmo elemento pode ser retirado 
mais de uma vez) e (A/)„ amostras sem reposição (um elemento, quando escolhido, é 
removido da população, não havendo, pois, repetição na amostra). 

53. Uma amostra ordenada de tamanho n, extraída de uma população com N elementos, 
produz um plano aleatório simples se todas as possíveis amostras têm a mesma probabi¬ 
lidade de serem escolhidas; essa probabilidade será 1/A/"se a amostra for com reposição 
e l/(/V )„ se for sem reposição. Uma amostra casual de tamanho n, com reposição, é 
extraída de uma população com N elementos. Encontre a probabilidade de não haver 
repetição na amostra. 


Observe a situação do Problema 52, na qual não 

levamos em consideração a ordem do conjunto a (1 , d j2 , 3 in . Mostre que existem 
amostras sem reposição. 

55. (a) SeA,BeC são independentes, prove que A e B fl C são independentes. 

(b) Nas mesmas condições, prove que/4 U B e C são independentes. 

56. Dizemos que A C B (A é subconjunto de 8) se todo elemento de A também pertence a B. 
Por exemplo, {1,2} C {1, 2, 3}. Se P(A) = 1/3, P (B c ) = 1/4, A e B podem ser disjuntos (ou 
mutuamente exclusivos)? (Sugestão: P(A) -P(A D B) + P(A D B c ) eA íl B c C B c . Use o 
fato de que, se4 C B, P[A) «£ P(B).) 

57. Um sistema é composto de três componentes 1, 2 e 3, com confiabilidade 0,9, 0,8 e 0,7, 
respectivamente. O componente 1 é indispensável ao funcionamento do sistema; se 2 ou 
3 não funcionam, o sistema funciona, mas com um rendimento inferior. Afalha simultâ¬ 
nea de 2 e 3 implica o não-funcionamento do sistema. Supondo que os componentes 
funcionem independentemente, calcular a confiabilidade do sistema. 

58. Prove (5.4). (Sugestão: Escreva U U 1/ e 1/ como reuniões de eventos mutuamente 
exclusivos.) 



54. Considere 


N)_(Nl _ 
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59. Há quatro bolas numa urna, numeradas 000, 011, 101, 110. Selecione uma bola ao 
acaso da urna. Considere os eventos 

A.-, na bola selecionada, o número 1 aparece na posição /, / = 1, 2, 3. 

Seja A =/A 1 ÍT A 2 n A 3 . 

(a) Calcule P(A), i = 1, 2,3 e P(A). 

(b) Mostre que/A i; /A 2 e/4 3 são mutuamente independentes, mas não são independentes. 

60. Comofica a relação (5.10) para n eventos quaisquer A V A V ...,A n ? 

61 . Definir independência para n eventos quaisquer A x , ■■■,A n . 

62. O problema do aniversário. Considere k pessoas numa sala. Qual a probabilidade de 
que pelo menos duas pessoas façam aniversário no mesmo dia e mês? A partir de qual 
valor de k essa probabilidade é maior que 0,5? 

(Sugestão: seja A o evento "pelo menos duas pessoas fazem aniversário no mesmo dia". 
O evento complementar é A c : "todas as k pessoas fazem aniversário em dias diferentes". 
Calcule primeiro a P(A C ). Para isso, use o resultado do Problema 53. Aqui, temos N =365 
dias ek-n pessoas. SeP(A) -p, então mostre que 

, „_ DIA C,_ (365), _ 365 ■ 364 ■ 363 ... (365 - /c +1) 

L- P - F (A ) 355* ■ 

Note que há k fatores no numerador e no denominador dessa expressão.) 

63. Mostre que a probabilidade 1 - p do Problema 62 pode ser escrita como 

1 t 1 +2 +... +k- 1 _1- (k-l)k 
~ P ~ 365 730 ' 

para k pequeno. Como ficará P (A) neste caso? 

64. Num mercado, três corretoras A, B e C são responsáveis por 20%, 50% e 30% do volume 
total de contratos negociados, respectivamente. Do volume de cada corretora, 20%, 5% 
e 2%, respectivamente, são contratos futuros em dólares. Um contrato é escolhido ao 
acaso e este é futuro em dólares. Qual é a probabilidade de ter sido negociado pela 
corretora A ? E pela corretora C? 

65. Lance uma moeda duas vezes e sejam os eventos: A : cara no primeiro lançamento, 

B: cara no segundo lançamento e C: as duas moedas mostram faces diferentes. 

Mostre que A , B eC são dois a dois independentes, mas não totalmente independentes. 

66. O Problema de Monty Hall. Num programa de TV o objetivo é ganhar um carro como 
prêmio. O apresentador do programa mostra a você três portas, P 1 ,P 2 eP 3 : atrás de uma 
há um carro e, das outras, duas cabras. Ele pede a você para escolher uma porta, você 
escolhe P v mas esta não é aberta. Então, ele abre uma das outras duas portas e mostra 
uma cabra (ele sabe o que há atrás de cada porta). Então ele pergunta se você quer 
mudar sua escolha de porta. O que você faria? 

[Sugestão: Solução informal: Faça a árvore de possibilidades. Solução formal: seja G o 
evento: ganhar o carro, mudando sua escolha. Seja C j o evento: carro está atrás da porta 
P f , / — 1, 2, 3 e seja o evento: apresentador abriu a porta P. r i = 1, 2, 3. Escreva G 
como uma reunião disjunta de dois eventos e use (5.8).] 







Capítulo 6 


Variáveis Aleatórias Discretas 


6.1 Introdução 

No capítulo anterior introduzimos alguns modelos probabilísticos por meio de 
espaços amostrais bem simples. Isso facilitou bastante a compreensão do conceito 
de probabilidade e a obtenção de algumas propriedades. Mas, para atender a situa¬ 
ções práticas mais gerais, necessitamos ampliar esses conceitos para que tenhamos 
modelos probabilísticos que representem todos os tipos de variáveis definidas no 
Capítulo 2. Muito do que foi apresentado naquele capítulo para tratamento descritivo 
das variáveis terá o seu correspondente no modelo teórico. 

Para as variáveis qualitativas, a descrição de probabilidades associadas a eventos 
construída no capítulo precedente adapta-se muito bem. Dada a sua simplicidade, 
trataremos aqui de variáveis quantitativas discretas. Já os modelos para variáveis 
contínuas necessitarão de um artifício matemático, baseado em uma generalização 
do conceito de histograma, definido na seção 2.3, e esse será o objetivo do próximo 
capítulo. A extensão dos modelos para várias variáveis será tratada no Capítulo 8. 

Por outro lado, quando estudamos a descrição de dados, vimos que os recursos 
disponíveis para a análise das variáveis quantitativas são muito mais ricos do que 
para as variáveis qualitativas. Isso sugere o uso de artifícios para transformar essas 
últimas variáveis naquelas do primeiro tipo. Por exemplo, considere o caso de um 
questionário em que uma pessoa é indagada a respeito de uma proposição, e as 
respostas possíveis são sim ou não. Podemos associar ao problema uma variável que 
toma dois valores, 1 ou 0, por exemplo, correspondentes às respostas sim ou não, 
respectivamente. Esse tipo de variável será estudado neste capítulo. 

O conhecimento de modelos probabilísticos para variáveis quantitativas é muito 
importante, e grande parte do restante deste livro será dedicada à construção desses 
modelos e inferências sobre seus parâmetros. Essas variáveis, para as quais iremos 
construir modelos probabilísticos, serão chamadas de variáveis aleatórias (v.a.). 
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6.2 O Conceito de Variável Aleatória Discreta 

0 conceito de v.a. discreta será introduzido por meio de um exemplo. 

Exemplo 6.1. Um empresário pretende estabelecer uma firma para montagem de um 
produto composto de uma esfera e um cilindro. As partes são adquiridas em fábricas 
diferentes (A e B), e a montagem consistirá em juntar as duas partes e pintá-las. O 
produto acabado deve ter o comprimento (definido pelo cilindro) e a espessura (defi¬ 
nida pela esfera) dentro de certos limites, e isso só poderá ser verificado após a mon¬ 
tagem. Para estudar a viabilidade de seu empreendimento, o empresário quer ter uma 
idéia da distribuição do lucro por peça montada. 

Sabe-se que cada componente pode ser classificado como bom, longo ou curto, 
conforme sua medida esteja dentro da especificação, maior ou menor que a especificada, 
respectivamente. Além disso, foram obtidos dos fabricantes o preço de cada compo¬ 
nente ($5,00) e as probabilidades de produção de cada componente com as caracterís¬ 
ticas bom, longo e curto. Esses valores estão na Tabela 6.1. 

Se o produto final apresentar algum componente com a característica C (curto), ele 
será irrecuperável, e o conjunto será vendido como sucata ao preço de $5,00. Cada 
componente longo poderá ser recuperado a um custo adicional de $5,00. Se o preço 
de venda de cada unidade for de $25,00, como seria a distribuição de freqüências da 
variável X: lucro por conjunto montado? 


Tabela 6.1 : Distribuição da produção das fábricas A e B, de acordo com as medidas 
das peças produzidas. 


Produto 

Fábrica A 
Cilindro 

Fábrica B 
Esfera 

Dentro das especificações . 

... bom (B) 

0,80 

0,70 

Maior que as especificações. 

... longo (L) 

0,10 

0,20 

Menor que as especificações .... 

... curto (C) 

0,10 

0,10 


fonte: Retirado dos especificações técnicos dos fábricas A e B. 

A construção dessa distribuição de freqüências vai depender de certas suposições 
que faremos sobre o comportamento do sistema considerado. Com base nessas suposi¬ 
ções, estaremos trabalhando com um modelo da realidade, e a distribuição que obtivermos 
será uma distribuição teórica, tanto mais próxima da distribuição de freqüências real quanto 
mais fiéis à realidade forem as suposições. 

Primeiramente, vejamos a construção do espaço amostrai para a montagem dos 
conjuntos segundo as características de cada componente e suas respectivas probabi¬ 
lidades. Como os componentes vêm de fábricas diferentes, vamos supor que a classi¬ 
ficação dos cilindros e a da esfera, segundo suas características, sejam eventos inde¬ 
pendentes. Obteremos a configuração da Figura 6.1. 

Uma representação do espaço amostrai em questão está apresentada na Tabela 6.2 
e foi obtida da Figura 6.1. 
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Figura 6.1 : Diagrama em árvore para o Exemplo ó.l. 



Tabela 6.2: Distribuição de probabilidade das possíveis composi¬ 
ções das montagens. 


Produto 

Probabilidade 

Lucro por montagem (X) 

BB 

0,56 

15 

BL 

0,16 

10 

BC 

0,08 

-5 

LB 

0,07 

10 

LL 

0,02 

5 

LC 

0,01 

-5 

CB 

0,07 

-5 

CL 

0,02 

-5 

CC 

0,01 

-5 


Fonte: Figura 5.1 e informações no texto. 


A última coluna da Tabela 6.2 foi construída com base nas informações sobre pre¬ 
ços. Por exemplo, obtendo uma montagem LB (cilindro longo e esfera boa), do preço de 
venda $25,00 devemos descontar: $10,00 dos custos dos componentes e $5,00 para 
recuperar o cilindro longo. Portanto, o lucro X desse conjunto será $10,00. Verifique os 
lucros das demais montagens. 

Com os dados da Tabela 6.2, vemos que X pode assumir um dos seguintes valores: 

15, se ocorrer o evento A 2 = {BB}; 

10, se ocorrer o evento A 2 = {BL , LB}; 

5, se ocorrer o evento X\ 3 = {LL}; 

-5, se ocorrer o evento A 4 = {BC, LC, CB, CL, CC}. 

Cada um desses eventos tem uma probabilidade associada, ou seja, 

P (4^ =0,56, P(A 2 ) = 0,23, 

P (A 3 ) = 0,02, P(A 4 ) = 0,19, 

o que nos permite escrever a função (x, p (x)) da Tabela 6.3, que é um modelo teórico 
para a distribuição da variável X, que o empresário poderá usar para julgar a viabilida¬ 
de econômica do projeto que ele pretende realizar. Aqui, x é o valor da v.a. X e p(x) é 
a probabilidade de X tomar o valor x. Voltaremos a esse problema mais adiante. 
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Tabela 6.3: Distribuição da v.a. X. 


X 

p(x) 

15 

0,56 

10 

0,23 

5 

0,02 

-5 

0,19 

Total 

1,00 


A função (x, p (x)) é chamada função de probabilidade da v.a. X. Esquematicamente 
teremos a situação da Figura 6.2. 


Figura 6.2: Função de probabilidade da 
v.a. X = lucro por montagem. 



É evidente que, ao mesmo espaço amostrai da Tabela 6.2, podemos associar outras 
variáveis aleatórias, como veremos a seguir. 

Exemplo 6.2. Se considerarmos Y como sendo a variável "custo de recuperação de 
cada conjunto produzido", verificaremos que Y irá assumir os valores 

0, se ocorrer o evento B 1 = {BB, BC, LC, CB, CL, CC}; 

5, se ocorrer o evento B 2 = {BL, LB}; 

10, se ocorrer o evento B 3 = {LL}. 

A função de probabilidade da v.a. Y está representada na Tabela 6.4 e a Figura 6.3 
representa a situação esquematicamente. 


Figura 6.3: Função de probabilidade da 
v.a. Y = custo de recuperação. 
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Tabela 6.4: Distribuição da v.a. Y. 


y 

P(y) 

0 

0,75 

5 

0,23 

10 

0,02 

Total 

1,00 


Deduz-se do exposto que uma v.a. X, do tipo discreto, estará bem caracterizada 
se indicarmos os possíveis valores x v x 2 , ..., x n , ... que ela pode assumir e as respec¬ 
tivas probabilidades p[xj, p(x 2 ), ..., p(xj, ..., ou seja, se conhecermos a sua função de 
probabilidade (x, p(xj). Também usaremos a notação p(x) = P(X = x). 

Em algumas situações, a determinação da função de probabilidade (f.p.) é bem 
mais simples. Isso pode ser verificado pelos dois exemplos seguintes. 

Exemplo 6.3 Voltemos à situação do Exemplo 5.10, em que consideramos duas extra¬ 
ções, sem reposição, de uma urna contendo duas bolas brancas e três bolas vermelhas. 
Definamos a v.a. X: número de bolas vermelhas obtidas nas duas extrações. Obtemos 
a Tabela 6.5 e a Figura 6.4. 


Tabela 6.5: Extrações sem reposição de urna com duas 
bolas brancas e três bolas vermelhas. 


Resultados 

Probabilidades 

X 

BB 

1/10 

0 

BV 

3/10 

1 

VB 

3/10 

1 

VV 

3/10 

2 


Fonte: Figura 6.4. 


Figura 6.4: Diagrama em árvore 
para o Exemplo 6.3. 



Vemos, pois, que a cada resultado do experimento está associado um valor da v.a. 
X, a saber, 0, 1 ou 2. 
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Temos que X = O, com probabilidade 1/10, pois X = 0 se, e somente se, ocorre o 
resultado BB; X =1 com probabilidade 3/10 + 3/10 = 6/10, pois X = 1 se, e somente se, 
ocorrem os resultados BV ou VB, que são mutuamente exclusivos; final mente, X = 2 com 
probabilidade 3/10, pois X = 2 se, e somente se, ocorre o resultado VV. Resumidamente, 

p( 0) = P(X =0) = P(BB) =1/10, 
p( 1) =P(X =1) = PÍBV ou VB) =6/10, 
p( 2) = P(X =2) =P(VV) =3/10. 

Na Tabela 6.6 apresentamos a distribuição de probabilidades da v.a. X. 


Tabela 6.6: Distribuição de probabilidades da v.a. 
X = número de bolas vermelhas. 


X 

PM 

0 

1/10 

1 

6/10 

2 

3/10 


Fonte: Tabela 6.5. 


Exemplo 6.4 Retomemos o Exemplo 5.3, em que consideramos o lançamento de uma 
moeda duas vezes. Definamos a v.a. Y: número de caras obtidas nos dois lançamentos. 
Temos, então: 

p(0) =P(Y =0) =P(RR) =1/4, 

p(l) =P(Y = 1) = P(CR ou RC) = 1/4 + 1/4 = 1/2, 

p( 2) =P(Y =2) =P(CC) =1/4. 

Na Tabela 6.7 e Figura 6.5 temos esquematizado o que ocorre e na Tabela 6.8 
apresentamos a distribuição de probabilidades de Y. 


Tabela 6.7: Lançamento de duas moedas. 


Resultados 

Probabilidades 

Y 

CC 

1/4 

2 

CR 

1/4 

1 

RC 

1/4 

1 

RR 

1/4 

0 


Fonte: Figura 6.5. 


Figura 6.5: Diagrama em árvore para o Exemplo 6.4. 
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Tabela 6.8: Distribuição da v.a. Y = número de caras. 


y 

p(y) 

0 

1/4 

i 

1/2 

2 

1/4 


Fonte: Tabela 6.7. 


Dos exemplos apresentados, vemos que, a cada ponto do espaço amostrai, a variável 
sob consideração associa um valor numérico, o que corresponde em Matemática ao 
conceito de função, mais precisamente, a uma função definida no espaço amostrai Q 
e assumindo valores reais. 

Definição Uma função X, definida no espaço amostrai Q e com valores num conjunto 
enumerável de pontos da reta é dita uma variável aleatória discreta. 
Esquematicamente, teremos a situação da Figura 6.6. 


Figura 6.6: Definição de uma v.a. 



Vimos, também, como associar a cada valor x. da v.a. X sua probabilidade de ocor¬ 
rência. Ela é dada pela probabilidade do evento A de Q, cujos elementos correspondem 
ao valor x j (veja Figuras 6.2 e 6.3). Matematicamente, podemos escrever 

P(X =x i ) = P (A), 

onde 


A = {cOj, co 2 , ...} c Q 
é tal queX(co ( .) =x j , se co ( e A eX(co ( .) x j} se co ( . e A c . 

Definição. Chama-se função de probabilidade da v.a. discreta X, que assume os valo¬ 
res x v x 2 , ..., x n , ..., a função {(*., p(x ( )), / = 1, 2, ...}, que a cada valor de x. associa a sua 
probabilidade de ocorrência, isto é, 

p( Xj ) =p(x =x i ) =p jl i = 1 , 2, ... 
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1. Considere uma urna contendo três bolas vermelhas e cinco pretas. Retire três bolas, sem 
reposição, e defina a v.a.X igual ao número de bolas pretas. Obtenha a distribuição deX. 

2. Repita o problema anterior, mas considerando extrações com reposição. 

3. Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira vez. Seja 
X o número de lançamentos até que isso aconteça. Obtenha a distribuição deX. (Obser¬ 
ve que, nesse problema, pelo menos teoricamente, X pode assumir um número infinito de 
valores.) Veja também o Problema 55. 

4. Uma moeda perfeita é lançada quatro vezes. Seja Y o número de caras obtidas. Calcule 
a distribuição de Y. 

5. Repita o problema anterior, considerando agora que a moeda é viciada, sendo a proba¬ 
bilidade de cara dada por p, 0 <p <1, p # 1/2. 

6. Generalize o Problema 5, para n lançamentos da moeda. 


6.3 Valor Médio de uma Variável Aleatória 

Vamos introduzir o conceito de valor médio por meio do seguinte exemplo. 

Exemplo 6.5, Uma pergunta que logo ocorreria ao empresário do Exemplo 6.1 é qual o 
lucro médio por conjunto montado que ele espera conseguir. Da Tabela 6.3, observamos 
que 56% das montagens devem produzir um lucro de 15 reais, 23% um lucro de dez 
reais, e assim por diante. Logo, o lucro esperado por montagem será dado por 
lucro médio = (0,56)(15) + (0,23)(10) + (0,02)(5) + (0,19)(-5) = 9,85. 

Isto é, caso sejam verdadeiras as suposições feitas para determinar a distribuição 
da v.a., o empresário espera ter um lucro de 9,85 reais por conjunto montado. 

Definição. Dada a v.a. X discreta, assumindo os valores x v ..., x n , chamamos valor 
médio ou esperança matemática de X ao valor 

E(X) = Ê x P (X = x) = X x p . (6.1) 

/ =i 1 ' / =i ' ' 

A expressão (6.1) é semelhante àquela utilizada para a média, introduzida no Capí¬ 
tulo 3, onde no lugar das probabilidades p ( tínhamos as freqüências relativas f r A 
distinção entre essas duas quantidades é que a primeira corresponde a valores de um 
modelo teórico pressuposto, e a segunda, a valores observados da variável. Como p j e 
f têm a mesma interpretação, todas as medidas e gráficos discutidos no Capítulo 2, 
baseados na distribuição das f, possuem um correspondente na distribuição de uma 
v.a. Além do valor médio, ou simplesmente média, definido acima, podemos conside¬ 
rar também outras medidas de posição e variabilidade, como a mediana e o desvio 
padrão. Veja a seção 6.8 para a definição da mediana de uma v.a. discreta. Vamos 
considerar agora a definição de variância. 





136 


CAPÍTULO 6 — VARIÁVEIS ALEATÓRIAS DISCRETAS 


Definição Chamamos de variância da v.a. X o valor 

Var(X) =Í [x, - E (X)] 2 p r (6.2) 

O desvio padrão deX, DP(X), é definido como a raiz quadrada positiva da variância. 

Exemplo 6.6 Deixamos a cargo do leitor verificar que, no caso do problema do em¬ 
presário, teremos: 

(i) Var(X) = 57,23; 

(ii) DP(X) = 7,57; 

(iii) gráfico de (x, p(x)): Figura 6.7. 


Figura 6.7: Gráfico de p(x): distribuição da v.a. X = lucro 
por montagem. 



Observação. Até agora, consideramos o caso em que a v.a. X pode assumir um núme¬ 
ro finito de valores. Mas uma v.a. discreta X pode assumir um número infinito, porém 
enumerável, de valores, x v ..., x n , ..., com probabilidades p v .... p n , ..., tal que 
cada p. > 0 e a soma de todos os p j seja 1, ou seja, U=i P, = 1- Veja o Problema 3. Nesse 
caso, a definição de esperança deve ser modificada. A soma na expressão (6.1) é uma 
"soma infinita", que temos de supor que seja "convergente". 




emas 


7. Obtenha a média e a variância da v.a. X dos Problemas 1 e 2. 

8. Obter a média e a variância da v.a. Y do Problema 4. 
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6.4 Algumas Propriedades do Valor Médio 

Retomemos o Exemplo 6.1 para ilustrar algumas propriedades da média de uma v.a. 

Exemplo 6.7. Suponha que todos os preços determinados pelo empresário do Exem¬ 
plo 6.1 estivessem errados. Na realidade, todos os valores deveriam ser duplicados, 
isto é, custos e preços de venda. Isso corresponde à transformação Z = 2X. As probabi¬ 
lidades associadas à v.a. Z serão as mesmas da v.a. X, pois cada valor de X irá 
corresponder a um único valor de Z. Na Tabela 6.9 temos a distribuição de Z. 

O valor médio da v.a. Z é obtido por 

E(Z ) =Zz,p(z,) =1(2 x,)p{x,) =19,70. 

Suponha, agora, que queiramos a distribuição da v.a. 1/1/ =X 2 . Baseados na Tabela 6.3, 
obtemos a Tabela 6.10. 


Tabela 6.9: Distribuição da variável aleatória Z =2X. 


X 

z = 2x 

p(z) =pM 

z ■ p(z) 

15 

30 

0,56 

16,80 

10 

20 

0,23 

4,60 

5 

10 

0,02 

0,20 

-5 

-10 

0,19 

-1,90 

Total 

- 

1,00 

19,70 


Fonte: Tabela 6.3. 


Tabela 6.10: Distribuição da variável aleatória 1/1/ =X 2 . 


w 

p(w) 

i/v ■ p(w) 

225 

0,56 

126,00 

100 

0,23 

23,00 

25 

0,21 

5,25 

Total 

1,00 

154,25 


Fonte: Tobela 6.3. 


Observe que o evento {1/1/ = 25} ocorre quando {X = 5 ou X = -5}, portanto 
P(1/1/ = 25) = P(X = 5) + P(X = -5) = 0,02 + 0,19 = 0,21. Segue-se que a média de 1/1/ é 

£ (1/1/) =lw,p(w,) = (225)(0,56) + (100)(0,23) + (25)(0,21) 

= (225) (0,56) + (100)(0,23) + {(25)(0,02) + (25)(0,19)} 

= lxfp(x i ) = 154,25. 
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Quanto às esperanças de Z e l/l/, transformadas de X, é fácil ver que elas podem ser 
escritas através da f.p. de X. 

Definição. Dada a v.a. discreta X e a respectiva função de probabilidade p(x), a espe¬ 
rança matemática da função h(X) é dada por 

E[h(X)] =^h(x i )p(x i ). (6.3) 

As seguintes propriedades podem ser facilmente demonstradas (veja o Problema 45): 

(a) Se h(X) = aX + b, onde a e b são constantes, então 

E(aX +b) =aE(X) +b, (6.4) 

Var (aX + b) =a 2 Var(X). (6.5) 

(b) Var(X) = £(X 2 ) - [(£(X)] 2 = Vx 2 p(x,.) - [Vx.p(x,.)] 2 . (6.6) 

A fórmula (6.6) deve ser usada para facilitar o cálculo da variância. 

Observação. A propriedade (6.4) não vale, em geral, para funções não-lineares. 

Veja o Problema 58. 

Exemplo 6.8. Usando os resultados dos exemplos 6.5 e 6.7, obtemos 

Var(X) = 154,25 - (9,85) 2 = 57,23. 

Observação. Usaremos os símbolos abaixo para indicar a média e a variância de uma v.a. X: 

E(X) =iáX), 

Var(X) = <7 2 (X), 

ou, simplesmente, /a e a 2 , respectivamente, se não houver possibilidade de confusão. 

6.5 Função de Distribuição Acumulada 

No Capítulo 2 demos a definição de função de distribuição acumulada ou empírica 
para um conjunto de n observações. O equivalente teórico para variáveis aleatórias 
é definido a seguir. 

Definição. Dada a variável aleatória X, chamaremos de função de distribuição acumu¬ 
lada (f.d.a.), ou simplesmente função de distribuição (f.d.) F(x) à função 

F(x) = P (X x). (6.7) 

Observe que o domínio de F é todo o conjunto dos números reais, ao passo que o 
contradomínio é o intervalo [0,1]. 

Exemplo 6.9. Voltando ao problema do empresário e usando a f.p. de X definida na 
Tabela 6.3, a f.d.a. de X será dada por 
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0 , 

se 

x < 

-5 

0,19, 

se 

-5 = 

s x < 5 

0,21, 

se 

5 t 

x < 10 

0,44, 

se 

10 = 

s x < 15 

1 , 

se 

X :■ 

15, 


cujo gráfico está na Figura 6.8. 


Figura 6.8: f.d.a. para a v.a. X = lucro 
por montagem. 


F(x) 


1,0 

T- 

0,8 


0,6 


0,4 



■-?- I 

-5 
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Observe que P(X = x.) é igual ao salto que a função F(x) dá no ponto x.; por 
exemplo, P(X = 10) = 0,23 = F(10) - F(IO-). De modo geral, P(X =x.) = F(x.) - F(x -), 
onde lembramos que F(a-) = lim x ^ a F(x). Observe, também, que o conhecimento de 
F(x) é equivalente ao conhecimento da f.p. de X. 


emas 


9. No Problema 1, obtenha as distribuições das v.a. 3X e X 2 . 

10. Considere o lançamento de três moedas. Se ocorre o evento CCC, dizemos que temos 
uma seqüência, ao passo que se ocorre o evento CRC temos três seqüências. Defina a v.a. 
X = número de caras obtidas e V = número de seqüências, isso para cada resultado 
possível. Assim, X (CRR) =1 e Y ( CRR ) - 2. Obtenha as distribuições de X e Y. Calcule 
E(X),E(Y), Var(X) e Var(Y). 

11. Suponha que a v.a. 1/ tem a distribuição seguinte: 


V 

0 

i 

p[v) 

q 

1 -q 


Obtenha E ( V ) e Var(l/). 

12. Seja X com distribuição dada abaixo; calcule E(X). Considere a v.a. (X - a) 2 e calcule 
E(X - a) 2 para a - 0, 1/4, 1/2, 3/4, 1. Obtenha o gráfico de E(X - a) 2 =g(a). 

Para qual valor de a, g(a ) é mínimo? 


X 

0 

1 

2 

p(x) 

1/2 

1/4 

1/4 
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13. Um vendedor de equipamento pesado pode visitar, num dia, um ou dois clientes, com 
probabilidade de 1/3 ou 2/3, respectivamente. De cada contato, pode resultar a venda de 
um equipamento por $50.000,00 (com probabilidade 1/10) ou nenhuma venda (com pro¬ 
babilidade 9/10). Indicando por Y o valor total de vendas diárias desse vendedor, escreva a 
função de probabilidade de Y e calcule o valor total esperado de vendas diárias. 

14. Calcule a variância da v.a. Y definida no Problema 13. 

15. Obterá f.d.a. para a v.a. V do Problema 11. Faça seu gráfico. 

16. Calcule a f.d.a. da v.a. Y do Problema 10 e faça seu gráfico. 

17. O tempo T, em minutos, necessário para um operário processar certa peça é uma v.a. 
com a seguinte distribuição de probabilidade. 


t 

2 

3 

4 

5 

6 

7 

p(t ) 

0,1 

0,1 

0,3 

0,2 

0,2 

0,1 


(a) Calcule o tempo médio de processamento. 

Para cada peça processada, o operário ganha um fixo de $2,00, mas, se ele processa 
a peça em menos de seis minutos, ganha $0,50 em cada minuto poupado. Por exem¬ 
plo, se ele processa a peça em quatro minutos, recebe a quantia adicional de $1,00. 

(b) Encontre a distribuição, a média e a variância da v.a. G: quantia em $ ganha por peça. 

18. Sabe-se que a v.a. X assume os valores 1, 2 e 3 e que sua f.d.a. F (X ) é tal que 

F(l) - F(l-) = 1/3, 

F (2) - F (2 -) = 1/6, 

F (3) - F (3-) = 1/2. 

Obtenha a distribuição deX, a f.d.a. F(x) e os gráficos respectivos. 

19. Obtenha a f.d.a. F (t) da v.a. T do Problema 17. 

ó.ó Alguns Modelos Probabilísticos para Variáveis Aleatórias 
Discretas 

Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas 
práticos. Portanto, um estudo pormenorizado dessas variáveis é de grande importân¬ 
cia para a construção de modelos probabilísticos para situações reais e a conseqüente 
estimação de seus parâmetros. Para algumas dessas distribuições existem tabelas que 
facilitam o cálculo de probabilidades, em função de seus parâmetros. Nesta seção 
iremos estudar alguns desses modelos, procurando enfatizar as condições em que eles 
aparecem, suas funções de probabilidade, parâmetros e como calcular probabilidades. 

6.6.1 Distribuição Uniforme Discreta 

Este é o caso mais simples de v.a. discreta, em que cada valor possível ocorre com 
a mesma probabilidade. 
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Definição. A v.a. discreta X, assumindo os valores x : , x k , tem distribuição uniforme 
se, e somente se, 

P(X =x,) =p(x,) =p =-A, (6.8) 

para todo i = 1, 2, ..., k. 

É fácil verificar que 

E(X) = ±Ix„ (6.9) 

k i =i ' 


Var(X) = y(Sx, 2 



( 6 . 10 ) 


e que a função de distribuição acumulada é dada por 

F(x) = I t = ' (6.11) 

(x, «X) k k 

onde n(x) é o número de x f s= x (veja a Figura 6.9). 


Figura 6.9: Distribuição uniforme discreta. 


p(x) , 

F(x) , 

1,0 ■ 

• A 

l/k ■ 

2/k ■ 

- • • • • l/k - 

f — 9 

(a) 

X 1 X 2 x 3 X k 

Função de probabilidade (b) 

X 1 X 2 X 3 X k 

Função de distribuição 


Exemplo 6.10. Seja X a v.a. que indica o "número de pontos marcados na face superior 
de um dado", quando ele é lançado. Obtemos na Tabela 6.11 a distribuição de X. 
Temos, também, 


E(X ) = 1/6 {1 + 2 + 3 + 4 + 5 + 6} = 21/6 = 3,5, 
Var(X ) = 1/6 {(1 + 4 + ... + 36) - (21) 2 /6} = 35/12 = 2,9. 

Tabela 6.11 : Número de pontos no lançamento de um dado. 


X 

1 

2 

3 

4 

5 

6 

Total 

P(X) 

1/6 

1/6 

1/6 

1/6 

1/6 

1/6 

1,0 
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Ó.Ó.2 Distribuição de Bernoulli 

Muitos experimentos são tais que os resultados apresentam ou não uma determina¬ 
da característica. Por exemplo: 

(1) uma moeda é lançada: o resultado ou é cara, ou não (ocorrendo, então, coroa); 

(2) um dado é lançado: ou ocorre face 5 ou não (ocorrendo, então, uma das faces 
1, 2, 3, 4 ou 6); 

(3) uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é 
defeituosa ou não; 

(4) uma pessoa escolhida ao acaso dentre 1.000 é ou não do sexo masculino; 

(5) uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verifica- 
se se ela é favorável ou não a um projeto municipal. 

Em todos esses casos, estamos interessados na ocorrência de sucesso (cara, face 5 
etc.) ou fracasso (coroa, face diferente de 5 etc.). Essa terminologia (sucesso e fracas¬ 
so) será usada freqüentemente. 

Para cada experimento acima, podemos definir uma v.a. X, que assume apenas 
dois valores: 1, se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por p a proba¬ 
bilidade de sucesso, isto é, P(sucesso) = P(S) = p, 0 < p < 1. 

Definição A variável aleatória X, que assume apenas os valores 0 e 1, com função de 
probabilidade (x, p(x)) tal que 


p( 0) =P(X =0) = l-p, 
P(l) =P(X =1) =p, 

é chamada variável aleatória de Bernoulli. 

Então, segue-se facilmente que 

E (X) = p; 

Var(X) =p - p 2 =p(l - p), 

0, se x < 0 
F(x) =< 1 - p, se 0 s£ x < 1 
1, se x > 1. 


( 6 . 12 ) 

(6.13) 


Na Figura 6.10 temos representadas as f.p. e f.d.a. de X. 
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Figura 6.10: Distribuição de Bernoulli (a) f.p. (b) f.d.a. 
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Exemplo 6.11 Vamos supor o caso do experimento (2). Supondo o dado perfeito, 
teremos P(X = 0) = 5/6, P(X = 1) = 1/6, 

E(X) = 1/6, Var(X ) = (1/6) (5/6) = 5/36. 

Observação. Experimentos que resultam numa v.a. de Bernoulli são chamados ensaios 
de Bernoulli. Usaremos a notação 


X ~ Ber(p) 

para indicar uma v.a. com distribuição de Bernoulli com parâmetro p. 

6.6.3 Distribuição Binomial 

Imagine, agora, que repetimos um ensaio de Bernoulli n vezes, ou, de maneira 
alternativa, obtemos uma amostra de tamanho n de uma distribuição de Bernoulli. 
Suponha ainda que as repetições sejam independentes, isto é, o resultado de um en¬ 
saio não tem influência nenhuma no resultado de qualquer outro ensaio. Uma amostra 
particular será constituída de uma seqüência de sucessos e fracassos, ou, alternativa¬ 
mente, de uns e zeros. Por exemplo, repetindo um ensaio de Bernoulli cinco vezes 
(n = 5), um particular resultado pode ser FSSFS ou a quíntupla ordenada (0, 1, 1, 0, 1). 
Usando a notação da seção 6.6.2, com P(S) = p, a probabilidade de tal amostra será 

(1 - p)pp(l - p)p =p 3 (l - p) 2 . 

O número de sucessos nessa amostra é igual a 3, sendo 2 o número de fracassos. 
Considere agora as seguintes situações, obtidas de (1) a (5) da seção anterior: 

(T) uma moeda é lançada três vezes; qual é a probabilidade de se obter duas caras? 

(2') um dado é lançado cinco vezes; qual é a probabilidade de se obter face 5 no 
máximo três vezes? 
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(3') dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 
peças; qual é a probabilidade de que todas sejam defeituosas, sabendo-se que 
10% das peças do lote são defeituosas? 

(4') cinco pessoas são escolhidas ao acaso entre 1.000; qual é a probabilidade de 
que duas sejam do sexo masculino? 

(5') sabe-se que 90% das pessoas de uma cidade são favoráveis a um projeto mu¬ 
nicipal. Escolhendo-se 100 pessoas ao acaso entre os moradores, qual é a 
probabilidade de que pelo menos 80 sejam favoráveis ao projeto? 

Observe que, nos casos (4') e (5'), o fato de estarmos extraindo indivíduos de um 
conjunto muito grande implica que podemos supor que as extrações sejam praticamen¬ 
te independentes. 

Exemplo 6.12 Consideremos a situação (1'), supondo que a moeda seja "honesta", 
isto é, P (sucesso) = P(cara) = 1/2. Indiquemos o sucesso (cara) por S e fracasso (co¬ 
roa), por F. Então, estamos interessados na probabilidade do evento 

A = {SSF, SFS, FSS}, 

ou, em termos da notação anterior, na probabilidade de 

A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)}. 

É claro que P(A) =P[SSF) + P(SFS) + P(FSS) e, devido à independência dos ensaios, 
P(SSF) =y xjxy = P(SFS) =P(F5S), 


e, portanto, 


P(A) = j. 

Se a probabilidade de sucesso for p, 0 < p < 1, e P(F ) = 1 - p = q, então 
P (SSF ) = p x p x q = p 2 x q =P(SFS) =P(FSS), 


de modo que 


P(A) = 3p 2 q. 

Uma característica interessante dos experimentos considerados é que estamos in¬ 
teressados apenas no número total de sucessos e não na ordem em que eles ocorrem. 
Podemos construir a Tabela 6.12 para n = 3 lançamentos da moeda, com P(S) = p, 
P(F) = 1 - p = q, a partir da Figura 6.11. 
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Figura 6.11: Probabilidades binomiais para n = 3 e P (S) = p. 



Tabela 6.12: Probabilidades binomiais para n = 3 e P (S) = p. 


Número de sucessos 

Probabilidades 

p= 1/2 

0 

q 3 

1/8 

1 

3 pq 2 

3/8 

2 

3 P 2 q 

3/8 

3 

P 3 

1/8 


Fonte: Figura 6.11. 


Vamos designar por X o número total de sucessos em n ensaios de Bernoulli, com 
probabilidade de sucesso p, 0 < p < 1. Os possíveis valores de X são 0, 1, 2, n e os 
pares (x, p(x)), onde p(x) = P(X = x), constituem a chamada distribuição binomial. 

Para o exemplo (1') acima, n = 3 e p = 1/2, obtemos a distribuição dada pela 
primeira e terceira colunas da Tabela 6.12 e o gráfico da Figura 6.12. 


Figura 6.12: Gráfico da f.p. p(x) para n =3 e p = 1/2. 
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Obtenhamos, agora, P(X = k), ou seja, numa seqüência de n ensaios de Bernoulli, 
a probabilidade de obter k sucessos (e portanto n - k fracassos), k = 0,1,2, ..., n, com 
P(S) = p, P(F ) = 1 - p = q. Uma particular seqüência é 

SSS ... SFF ... F, 

onde temos k sucessos seguidos por n - k fracassos. A probabilidade de tal seqüência é 

p fc (l - p) n - k = p k q n -\ (6.14) 

devido à independência dos ensaios. Mas qualquer seqüência com k sucessos e 
n - k fracassos terá a mesma probabilidade (6.14). Portanto resta saber quantas se- 
qüências com a propriedade especificada podemos formar. É fácil ver que existem 

n\ _ n! 
kj k\(n-k)\ 

tais seqüências, de modo que 

P (X =1'<) =( n Wg"-*, k =0, 1. n. (6 ' 15) 

As probabilidades (6.15) também serão indicadas por b(k; n, p) e, quando a v.a. X 
tiver distribuição binomial com parâmetros n e p, escreveremos 

X ~ b(n, p). 


Exemplo 6.13. Vamos considerar a situação (3 1 ) acima. Temos n =10 ensaios de Bernoulli, 
cada um com P(S) = P(peça defeituosa) = p = 0,1. Se X indicar o número de peças 
defeituosas na amostra, queremos calcular P(X = 10) = b(10; 10, 1/10). Por (6.15), 
obtemos 

P (X = 10) = (1/10) 10 (9/10)° = (1/10) 10 = 1/10 10 . 


A média e a variância de uma v.a. binomial, com parâmetros n e p são dadas, 
respectivamente, por 

E(X) = np, (6.16) 

Var(X) =npq. (6.17) 

Veja o Problema 41 e as seções 8.3 e 8.4. 

Para o Exemplo 6.13 temos 


E (X) = 10 x 


_ 1 _ 

10 


= 1 , 


Var(X) =10 x 



_9_ 

10 


As probabilidades binomiais b(k; n, p) são facilmente calculadas em programas 
estatísticos, como o M initab e o SPIus, ou planilhas, como o Excel, ou então são dadas 
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por tabelas especialmente construídas, para diferentes valores de n e p. A Tabela I 
fornece essas probabilidades para valores de n = 2, 3, 19 e alguns valores de p. 

Exemplo 6.14. Usando (6.15) e a Tabela I, ou com a ajuda de um computador, obtemos 



No Capítulo 7 e seção 6.6.5 abaixo veremos duas maneiras de calcular valores 
aproximados para as probabilidades binomiais para n grande. 

Para finalizar, vamos formalizar os principais pontos apresentados nesta seção. 

Definição. Chama-se de experimento binomial ao experimento 

(a) que consiste em n ensaios de Bernoulli; 

(b) cujos ensaios são independentes; e 

(c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1. 

Definição. A variável aleatória X, correspondente ao número de sucessos num experi¬ 
mento binomial, tem distribuição binomial b(n, p), com função de probabilidade 


b(k; n, p) = P (X =k\n, p) =^J 


p k q n ~ k , k = 0,1, ..., n. 


(6.18) 


Na seção 6.9 veremos como podemos obter os valores b(k; n, p), para n e p dados, 
usando um pacote estatístico. 

6.6.4 Distribuição Hipergeométrica 

Essa distribuição é adequada quando consideramos extrações casuais feitas sem reposi¬ 
ção de uma população dividida segundo dois atributos. Para ilustrar, considere uma população 
de N objetos, r dos quais têm o atributo A e N - r têm o atributo B. Um grupo de n 
elementos é escolhido ao acaso, sem reposição. Estamos interessados em calcular a proba¬ 
bilidade de que esse grupo contenha k elementos com o atributo A. Pode-se ver facilmente, 
utilizando o princípio multiplicativo, que essa probabilidade é dada por 



(6.19) 


onde max(0, n - N + r) k min(r, n). 

Os pares (k, p k ) constituem a distribuição hipergeométrica de probabilidades. Se defi¬ 
nirmos a v.a. X como sendo o número de elementos na amostra que têm o atributo A, então 
P(X =k) =p k . 


Exemplo 6.15. Em problemas de controle de qualidade, lotes com N itens são examinados. 
O número de itens com defeito (atributo A), r, é desconhecido. Colhemos uma amostra de n 
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itens e determinamos k. Somente para ilustrar, suponha que num lote de N = 100 peças, 
r = 10 sejam defeituosas. Escolhendo n = 5 peças sem reposição, a probabilidade de não se 
obter peças defeituosas é 


Po = 


10V90 
0 5 




0,584, 


enquanto a probabilidade de se obter pelo menos uma defeituosa é 

Pi +P 2 + - +P 5 = 1 - Po ~ 0,426. 

Pode-se demonstrar que a v.a. X definida acima tem esperança e variância dadas por 

E(X) = np, (6.20) 

Var(X) = np(l - p) , (6.21) 


respectivamente, onde p = r/N é a probabilidade de se obter uma peça defeituosa numa 
única extração. Se N for grande, quando comparado com n, então extrações com ou sem 
reposição serão praticamente equivalentes, de modo que as probabilidades dadas por (6.19) 
serão aproximadamente iguais às dadas pela fórmula (6.15), isto é, p k ~ b(k; n, p). Do 
mesmo modo, os resultados (6.20) e (6.21) serão aproximadamente iguais aos valores cor¬ 
respondentes da distribuição binomial (note que N - n ~ N - 1, se n « N). Denotaremos 
uma v.a. com distribuição hipergeométrica por 

X ~ hip(/V, r, n). 

6 . 6.5 Distribuição de Poisson 

A Tabela I fornece os valores de b(k; n, p) para n = 2, ..., 19. Para n grande e p 
pequeno, podemos aproximar essas probabilidades por 


eMnpY 

k\ 


-, k = 0, 1, ..., n. 


( 6 . 22 ) 


As probabilidades (6.22), calculadas agora para todos os valores inteiros não ne¬ 
gativos k = 0, 1, 2,..., constituem a chamada distribuição de Poisson, tabelada na 
Tabela II, para alguns valores de A = np. A aproximação 


b(k; n, p) 


e~ n P(np) k 

k! 


(6.23) 


é boa se n for grande e p pequeno e de tal sorte que np 7. Ver o Problema 43 para 
uma sugestão de como provar (6.23). 

As probabilidades dadas por (6.23) podem, também, ser obtidas em aplicativos 
estatísticos ou planilhas, assim como a binomial. 
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Exemplo 6.16 Consideremos aproximar b( 2; l.OOO, 0,0001), usando (6.23). Temos 
que np = 0,1, logo 


b( 2; 1.000, 0,0001) - e 0 ^°' 1)2 = 0,0045. 

Observemos que as probabilidades (6.23) estão definidas para qualquer inteiro não 
negativo k. Contudo, observando a Tabela II, vemos que essas probabilidades decaem à 
medida que k cresce e, normalmente, são desprezíveis para k maior do que 5 ou 6. 

A distribuição de Poisson é largamente empregada quando se deseja contar o número 
de eventos de certo tipo que ocorrem num intervalo de tempo, ou superfície ou volume. 
São exemplos: 

(a) número de chamadas recebidas por um telefone durante cinco minutos; 

(b) número de falhas de um computador num dia de operação; e 

(c) número de relatórios de acidentes enviados a uma companhia de seguros numa 
semana. 

De modo geral, dizemos que a v.a. N tem uma distribuição de Poisson com parâmetro 
A > 0 se 


P (N = k) = k = 0, 1, 2,... (6.24) 

A:! 

É fácil verificar que E(N) = Var(/V) = A (veja o Problema 46); logo, A representa o 
número médio de eventos ocorrendo no intervalo considerado. 

Uma suposição que se faz usualmente em relação à distribuição de Poisson é que a 
probabilidade de se obter mais de um evento num intervalo muito pequeno é desprezível. 

Exemplo 6.17. Uma situação prática de interesse na qual a distribuição de Poisson é 
empregada diz respeito à desintegração de substâncias radioativas. Considere o urâ¬ 
nio 238 (U 238 ), por exemplo. Cada núcleo de U 238 tem uma probabilidade muito 
pequena, 4,9 x IO” 18 de se desintegrar, emitindo uma partícula oc, em um segundo. 
Considere, agora, um número grande n de núcleos e a v.a. N = número de núcleos 
que se desintegram. Admitindo-se que a desintegração de um núcleo não afeta a 
probabilidade de desintegração de qualquer outro núcleo (independência), a v.a. N 
tem uma distribuição binomial, com parâmetros n e p, este dado pelo valor acima. 
Logo, estamos numa situação em que podemos usar (6.23), ou seja, aproximar pro¬ 
babilidades binomiais por probabilidades de Poisson. 

Em 0,30 mg de U 238 temos aproximadamente n = 7,6 x 10 17 átomos (Helene e 
Vanin, 1981), logo A = np ~ 3,7 e 

P (N = k) ~ 6 3 ! ( | 3,7) ^ , k = 0, 1,... 

Ar! 
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Por exemplo, P(N = 0) = 0,025 e P(N = 2) = 0,169. Pode-se ver que P(N 19) é 
muito pequena, menor do que 10 6 . 

Seria interessante avaliar se a distribuição de Poisson realmente é um modelo razoável 
para essa situação. Um experimento devido a Rutherford e Geiger (vqa Fel ler, 1964, pág. 149, para 
a referência completa sobre esse experimento) de fato comprova essa adequação. Eles 
observaram os números de partículas a emitidas por uma substância radioativa em 
n = 2.608 intervalos de 7,5 segundos. A Tabela 6.13 apresenta os números n k de intervalos 
de 7,5 segundos contendo k partículas. Uma estimativa de A = número médio de partículas 
emitidas durante um intervalo de 7,5 segundos é dada por 


A = 


Xkn 


k 


10.094 


n 2.608 

As probabilidades de Poisson são dadas por 


= 3,87. 


P k = 


3,87*e 


i-3,87 


k! 


-,k = 0, 1, 2, ... 


Segue-se que np k é o número esperado de intervalos contendo k partículas, e esses 
valores também estão apresentados na Tabela 6.13. Vemos que há uma boa coincidên¬ 
cia entre os valores das duas colunas. Um teste formal pode ser feito para verificar a 
adequação da distribuição de Poisson. Veja o Capítulo 14, Exemplo 14.5. 


Tabela 6.13: Freqüências observadas e esperadas 
para o Exemplo 6.17. 


k 

n k 

np k 

O 

57 

54,399 

1 

203 

210,523 

2 

383 

407,361 

3 

525 

525,496 

4 

532 

508,418 

5 

408 

393,515 

6 

273 

253,817 

7 

139 

140,325 

8 

45 

67,882 

9 

27 

29,189 

>10 

16 

17,075 


2.608 

2 . 608,000 


Se considerarmos ocorrências de eventos em intervalos de tempo de comprimento t, no 
lugar de intervalo unitário de tempo, basta ajustar o parâmetro A na fórmula (6.24). Vejamos 
um exemplo. 

Exemplo 6.18. Um telefone recebe, em média, cinco chamadas por minuto. Supondo que 
a distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que o 
telefone não receba chamadas durante um intervalo de um minuto. 
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Segue-se que A = 5 e 

P(N = 0) = ^ = e 5 = 0,0067. 

Por outro lado, se quisermos a probabilidade de obter no máximo duas chamadas 
em quatro minutos, teremos X = 20 chamadas em quatro minutos, logo 

P(N ^ 2) = P (N = 0) + P (N = 1) + P (N = 2) = e- 20 (1 + 20 + 200) = 221e- 20 , 
que é um número muito próximo de zero. 

Esse exemplo nos mostra que a probabilidade de k ocorrências num intervalo fixo 
de comprimento t pode ser escrita como 

P(N =k) =Ç^Ml k , k = 0, 1, 2. (6.25) 

k\ 

onde X representa o número médio de ocorrências naquele intervalo. Denotaremos 
uma v.a. N com distribuição de Poisson de parâmetro X por 

N ~ Pois(A). 

Apresentamos, na Tabela 6.14, um resumo das distribuições discretas estudadas 
neste capítulo. Para cada uma temos a fórmula que dá a probabilidade de assumir cada 
valor, os possíveis valores, os parâmetros que caracterizam cada distribuição, a média 
e a variância. Incluímos, também, a distribuição geométrica, tratada no Problema 55. 


Tabela 6.14: Modelos para variáveis discretas. 


Modelo 

P(X =x) 

Parâmetros 

E(X ),Var(X) 

Bernoulli 

px(l - p) l-x, X = 0,1 

P 

P.P(I-P) 

Binomial 

(^jp x (l- p) n -*,x = 0,.... n 

n,p 

np, np(l - p) 

Poisson 

e~ Ã X x 

,x=0 f l f ... 

x! 

X 

X,X 

Geométrica 

p(l - p) x "\ x = 1, 2,... 

P 

1 (1-p) 
p' p 2 

Hipergeométrica 


N, r, n 

nr (r\( r\(N-n) 

C) ■ 

N ' \N N ) (N - 1) 


111 a = max(0, n - N + r),b = minfr, n). 


iJTin 


emas 


20. Para os exercícios (a) a (e) abaixo, considere o enunciado: 

Das variáveis abaixo descritas, assinale quais são binomiais, e para essas dê os respecti¬ 
vos campos de definição e função de probabilidade. Quando julgar que a variável não é 
binomial, aponte as razões de sua conclusão. 
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(a) De uma uma com dez bolas brancas e 20 pretas, vamos extrair, com reposição, cinco 
bolas. X é o número de bolas brancas nas cinco extrações. 

(b) Refaça o problema anterior, mas dessa vez as n extrações são sem reposição. 

(c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada 
urna. Suponha queX seja o número de bolas brancas obtidas no final. 

(d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso um habi¬ 
tante de cada uma delas e classificando-o em pró ou contra um certo projeto federal. 
Suponha queX seja o número de indivíduos contra o projeto no final da pesquisa. 

(e) Em uma indústria existem 100 máquinas que fabricam determinada peça. Cada peça 
é classificada como boa ou defeituosa. Escolhemos ao acaso um instante de tempo e 
verificamos uma peça de cada uma das máquinas. Suponha queX seja o número de 
peças defeituosas. 

21. SeX ~ b(n, p), sabendo-se que E(X) = 12 e a 1 - 3, determinar: 

(a) n (e) E(Z) eVar(Z), onde Z = (X - 12)/V3 

(b) p (f) P(Y^ 14/16), onde Y = X/n 

(c) P(X < 12) (g) P(Y 3* 12/16), onde Y = X/n 

(d) P(X> 14) 

22. Numa central telefônica, o número de chamadas chega segundo uma distribuição de 
Poisson, com a média de oito chamadas por minuto. Determinar qual a probabilidade 
de que num minuto se tenha: 

(a) dez ou mais chamadas; 

(b) menos que nove chamadas; 

(c) entre sete (inclusive) e nove (exclusive) chamadas. 

23. Num certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um por 
2.000 pés. Qual a probabilidade de que um rolo com 2.000 pés de fita magnética tenha: 

(a) nenhum corte? 

(b) no máximo dois cortes? 

(c) pelo menos dois cortes? 

24. Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso 
é de 0,2. Se dez itens produzidos por essa máquina são selecionados ao acaso, qual é 
a probabilidade de que não mais do que um defeituoso seja encontrado? Use a binomial e a 
distribuição de Poisson e compare os resultados. 

25. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o número de ma¬ 
chos. Os dados estão representados na tabela abaixo. 


N 2 de Machos 

N 2 de Ninhadas 

0 

20 

1 

3ó0 

2 

700 

3 

680 

4 

200 

5 

40 

Total 

2.000 
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(a) Calcule a proporção média de machos. 

(b) Calcule, para cada valor de X, o número de ninhadas que você deve esperar se 
X ~ b( 5, p), onde p é a proporção média de machos calculada em (a). 

26. Se X tem distribuição binomial com parâmetros n = 5 e p = 1/2, faça os gráficos da 
distribuição deX e da f.d.a. F(x). 

27. Considere, agora, n = 5 e p = 1/4. Obtenha o gráfico da distribuição de X. Qual a 
diferença entre esse gráfico e o correspondente do Problema 26? O que ocasionou 
a diferença? 

28. Refaça o Problema 26, com n - 6 e p = 1/2. 

6.7 O Processo de Poisson 

No Exemplo 6.17 acima vimos uma aplicação importante da distribuição de Poisson ao 
problema da desintegração radioativa. Lá tratamos da emissão de partículas alfa em intervalos 
de 7,5 segundos. Ou seja, estamos contando o número de ocorrências de um evento ao 
longo do tempo. Na realidade, consideramos o que se chama um processo estocástico. 
Designando-se por N t o número de partículas emitidas no intervalo [0, t), obteremos o que se 
chama de processo de Poisson, para todo t > 0. Nesta seção iremos partir de algumas suposi¬ 
ções que consideramos plausíveis sobre tal processo e mostrar que a distribuição da variável 
aleatória N t , para cada t = 0, é dada pela fórmula (6.25). 

As suposições que iremos admitir como válidas são as seguintes. 

(51) N 0 = 0, ou seja, o processo começa no instante zero com probabilidade um: 
P(N 0 = 0) = 1. 

(52) Os números de eventos em intervalos de tempo disjuntos são v.a. independen¬ 
tes. Considere 0 < t < t + s, N t como antes e N t+s - N t o número de eventos no 
intervalo [f, t + s). Então, estamos supondo que as v.a. N t e N t+s - N t são inde¬ 
pendentes. Dizemos que o processo tem incrementos independentes. 

(53) Considere os intervalos [0, t) e [s, s + 1), de mesmo comprimento t e as v.a. N t 
como antes e M t = número de eventos no intervalo [s, s + t). Então, para todo 
s > 0, as v.a. N t e M t têm a mesma distribuição de probabilidades. Ou seja, a 
distribuição do número de eventos ocorridos num intervalo depende somente 
do comprimento do intervalo, e não de sua localização. Dizemos que o pro¬ 
cesso tem incrementos estacionários. 

(54) Para h suficientemente pequeno, P[N h = 1) ~ Ãh, com A > 0, constante. Ou 
seja, num intervalo pequeno, a probabilidade de ocorrência de um evento é 
proporcional ao comprimento do intervalo. 

(55) Para h como em (54), P(N h 2) ~ 0. Isso nos diz que a probabilidade de se ter 
dois ou mais eventos num intervalo suficientemente pequeno é desprezível. 

Considere o intervalo [0, t) e o divida em subintervalos de comprimento t/n, como 
na Figura 6.13. 
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Figura 6.13: Divisão de intervalo [0, t) em subintervalos de comprimentos t/n. 







0 

t 

n 

2t_ 

n 

(n-l)t 

n 

t 


Chamemos de Y a v.a. que dá os números de subintervalos com um evento. Então, Y é 
uma v.a. com distribuição binomial, de parâmetros n (número total de subintervalos) e p = 
P (um evento) = A(t/n). Para n grande, usando a aproximação da seção anterior, temos que 
essa variável pode ser aproximada por uma v.a. com distribuição de Poisson com parâmetro 
np = nA(t/n) = At. Note que aqui usamos as suposições S2 (cada subintervalo contém um 
evento, independentemente dos demais intervalos) e S3 (com a mesma probabilidade). 

Pela suposição 55, a probabilidade de que cada subintervalo contenha dois ou 
mais eventos tende a zero, quando n cresce. Logo, N t é uma v.a. com distribuição de 
Poisson, com parâmetro At. 

Uma prova um pouco mais rigorosa, usando derivadas, pode ser dada. Veja M eyer (1965). 

6.8 Qucmtis 

No Capítulo 3 estudamos os quantis associados a um conjunto de dados. Esses pode¬ 
riam ser chamados de quantis empíricos, pois podemos agora considerar quantis associa¬ 
dos à distribuição de uma v.a. discreta, os quais poderíamos denominar quantis teóricos. 

Definição. O valor Q(p) satisfazendo 

P(X Q(p)) 2* peP(X 55 Q(p )) > 1 - p, (6.26) 

para 0 < p < 1, é chamado o p-quantil de X. 

A interpretação do p-quantil é similar à que foi dada no caso de um conjunto de 
dados: Q(p) é o valor tal que a soma das probabilidades dos valores menores do que 
ele, é p. Então, por que não defini-lo por F(Q(p)) = P(X «= Q(p)) = p, onde F(x ) é a 
f.d.a. de XI A resposta será dada acompanhando os exemplos a seguir. 

Para determinados valores de p teremos, como antes, denominações especiais. 
Por exemplo: 

0j = 0(0,25): primeiro quartil 

Q 2 = 0(0,5): mediana ou segundo quartil 

0 3 = 0(0,75): terceiro quartil. 

Vejamos o caso da mediana, 0(0,5) = Md. Por (6.26) devemos ter 

P(X *£ Md) 5s 0,5 e P(X > Md) > 0,5. (6.27) 


Suponha a v.a. X com a distribuição: 
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X 

O 

1 

p(x) 

1/3 

2/3 


Então Md =1, pois P(X 1) = 1/3 + 2/3 = 1 > 1/2 eP(X > 1) = P(X =1) =2/3 >1/2. 
Na Figura 6.14 temos a f.d.a. de X. Sabemos que 


F(x) = Á 


0, x < 0 
1/3, 0 =£ x < 1 

1, X 3s 1, 


de modo que não existe algum valor x tal que F(x) = 0,5, o que ilustra por que não 
podemos definir a mediana por meio de F[Md) = 0,5. 


Figura 6.14: f.d.a. da v.a. X 



Por outro lado, considere a v.a. Y com a distribuição da tabela abaixo: 


Y 

-i 

O 

1 

p(y) 

1/4 

1/4 

1/2 


Então, qualquer valor Md entre 0 e 1 é uma mediana, pois 

P(Y ss Md) =P(Y =-l) + P (V =0) =1/2 ss 1/2 e 
P(Y 5? Md) =P(Y =1) =1/2 SS 1/2. 


A f.d.a. de Y está na Figura 6.15. Observe que 0 e 1 também são medianas. Observe, 
também, que 0(0,75) = 1, pois 

P(X ss 1) =1 =0,75, 

P(X > 1) =0,5 > 1 - p =0,25. 

Novamente, não há nenhum valor de y tal que F(y) = 0,75. M ostre que 0(0,90) 
também é igual a 1. 























156 


CAPÍTULO 6 — VARIÁVEIS ALEATÓRIAS DISCRETAS 


Figura 6.15: f.d.a. da v.a. Y 



6.9 Exemplos Computacionais 

Usando programas e planilhas computacionais é possível gerar probabilidades e 
probabilidades acumuladas para os modelos mais importantes discutidos neste capítu¬ 
lo. Por exemplo, o Minitab usa os comandos PDF para gerar probabilidades e CDF 
para gerar probabilidades acumuladas (f.d.a.). 

Exemplo 6.19. Temos, no Quadro 6.1, as probabilidades P(X = x) e P(X x) para uma 
v.a. X ~ b(14; 0,3), ou seja, n = 14 e p = P (sucesso) = 0,3. 


Quadro 6.1 Probabilidades binomiais geradas pelo Minitab. 


MTB > PDF; 

SUBO Binomial 14 0.3. 

Probability Density Function 


Binomial with n = 

14 and p 

= 0.300000 

X 

P(X = x) 

X 

P(X = x) 

0 

0.0068 

7 

0.0618 

1 

0.0407 

8 

0.0232 

2 

0.1134 

9 

0.0066 

3 

0.1943 

10 

0.0014 

4 

0.2290 

11 

0.0002 

5 

0.1963 

12 

0.0000 

6 

0.1262 




MTB > CDF; 

SUBO Binomial 14 0.3. 

Cumulative Distribution Function 


Binomial with n = 

14 and p 

= 0.300000 

X 

P(X < = x) 

x 

P(X < = x) 

0 

0.0068 

6 

0.9067 

1 

0.0475 

7 

0.9685 

2 

0.1608 

8 

0.9917 

3 

0.3552 

9 

0.9983 

4 

0.5842 

10 

0.9998 

5 

0.7805 

11 

1.0000 


Ainda, usando o M initab, temos no Quadro 6.2 as probabilidades e probabilidades 
acumuladas para uma v.a. com distribuição de Poisson com parâmetro A = 5,2. 
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Quadro 6.2 Probabilidades de Poisson geradas pelo Minitab. 


MTB > PDF; 

SUBC> Poisson 5.2. 

Probability Density Function 

Poisson with mu = 5.20000 


X 

>< 

II 

& 

X 

P(X = x) 

0 

0.0055 

9 

0.0423 

1 

0.0287 

10 

0.0220 

2 

0.0746 

11 

0.0104 

3 

0.1293 

12 

0.0045 

4 

0.1681 

13 

0.0018 

5 

0.1748 

14 

0.0007 

6 

0.1515 

15 

0.0002 

7 

0.1125 

16 

0.0001 

8 

0.0731 

17 

0.0000 


MTB > CDF; 

SUBC> Poisson 5.2. 

Cumulative Distribution Function 

Poisson with mu = 5.20000 


X 

P(X <= x) 

X 

P(X < = x) 

0 

0.0055 

9 

0.9603 

1 

0.0342 

10 

0.9823 

2 

0.1088 

11 

0.9927 

3 

0.2381 

12 

0.9972 

4 

0.4061 

13 

0.9990 

5 

0.5809 

14 

0.9997 

6 

0.7324 

15 

0.9999 

7 

0.8449 

16 

1.0000 

8 

0.9181 




Na planilha Excel podem ser usadas funções específicas dentro da categoria Estatís¬ 
tica. Por exemplo, para cálculos com a distribuição binomial, usarafunção DISTRBINOM; 
para a distribuição de Poisson, usar a função POISSON. 

6.10 Problemas e Complementos 

29. Um florista faz estoque de uma flor de curta duração que lhe custa $0,50 e que ele vende a 
$1,50 no primeiro dia em que a flor está na loja. Toda flor que não é vendida nesse primeiro 
dia não serve mais e é jogada fora. Seja X a variável aleatória que denota o número de 
flores que os fregueses compram em um dia casualmente escolhido. O florista descobriu 
que a função de probabilidade deX é dada pela tabela abaixo. 


X 

0 

1 

2 

3 

PM 

0,1 

0,4 

0,3 

0,2 


Quantas flores deveria o florista ter em estoque a fim de maximizar a média (valor 
esperado) do seu lucro? 

30. As cinco primeiras repetições de um experimento custam $10,00 cada. Todas as repetições 
subseqüentes custam $5,00 cada. Suponha que o experimento seja repetido até que o 
primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetição é igual a 0,9, e 
se as repetições são independentes, qual é o custo esperado da operação? 

31. Na manufatura de certo artigo, é sabido que um entre dez dos artigos é defeituoso. Qual 
a probabilidade de que uma amostra casual de tamanho quatro contenha: 

(a) nenhum defeituoso? 

(b) exatamente um defeituoso? 

(c) exatamente dois defeituosos? 

(d) não mais do que dois defeituosos? 
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32. Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá, no 
máximo, duas defeituosas. Se a caixa contém 18 peças, e a experiência tem demonstrado 
que esse processo de fabricação produz 5% das peças defeituosas, qual a probabilidade 
de que uma caixa satisfaça a garantia? 

33. Um curso de treinamento aumenta a produtividade de uma certa população de funcio¬ 
nários em 80% dos casos. Se dez funcionários quaisquer participam desse curso, encontre 
a probabilidade de: 

(a) exatamente sete funcionários aumentarem a produtividade; 

(b) não mais do que oito funcionários aumentarem a produtividade; e 

(c) pelo menos três funcionários não aumentarem a produtividade. 

34. O número de petroleiros que chegam a uma refinaria em cada dia ocorre segundo uma 
distribuição de Poisson, com A =2. As atuais instalações podem atender, no máximo, a três 
petroleiros por dia. Se mais de três aportarem num dia, o excesso é enviado a outro porto. 

(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto? 

(b) De quanto deverão ser aumentadas as instalações para permitir atender a todos os 
navios que chegarem pelo menos em 95% dos dias? 

(c) Qual o número médio de petroleiros que chegam por dia? 

35. Na tabela abaixo, X significa número de filhos homens em famílias com 12 filhos. Calcule 
para cada valor da variável o número de famílias que você deveria esperar se X ~ Ò( 12; 0,5). 


X 

N 2 observado de famílias 

0 

6 

1 

29 

2 

160 

3 

521 

4 

1.198 

5 

1.921 

6 

2.360 

7 

2.033 

8 

1.398 

9 

799 

10 

298 

11 

60 

12 

7 

Total 

10.690 


Você acha que o modelo binomial é razoável para explicar o fenômeno? 

36. Houve uma denúncia por parte dos operários de uma indústria de que, toda vez que 
ocorria um acidente em uma seção da indústria, ocorriam outros em outras seções mais 
ou menos no mesmo horário. Em outras palavras, os acidentes não estavam ocorrendo 
ao acaso. Para verificar essa hipótese, foi feita uma contagem do número de acidentes 
por hora durante um certo número de dias (24 horas por dia). Os resultados da pesquisa 
foram apresentados no quadro a seguir. 
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N e de acidentes por hora 

N 2 de horas 

0 

200 

1 

152 

2 

60 

3 

30 

4 

13 

5 

9 

ó 

7 

7 

5 

8 

4 


(a) Calcule o número médio de acidentes por hora nessa amostra. 

(b) Se o número de acidentes por hora seguisse uma distribuição de Poisson, com média 
igual à que você calculou, qual seria o número esperado de dias com 0 , 1 , 2 ,... etc. 
acidentes? 

(c) Os dados revelam que a suspeita dos operários é verdadeira? 

37. Determinado tipo de parafuso é vendido em caixas com 1.000 peças. É uma característica 
da fabricação produzir 10% com defeito. Normalmente, cada caixa é vendida por $13,50. 
Um comprador faz a seguinte proposta: de cada caixa, ele escolhe uma amostra de 20 
peças; se a caixa não tiver parafusos defeituosos, ele paga $20,00; um ou dois defeituo¬ 
sos, ele paga $10,00; três ou mais defeituosos, ele paga $8,00. Qual alternativa é a mais 
vantajosa para o fabricante? Justifique. 

38. Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição de 
Prímula Simenses Selvagem. Apriori, supomos que esse tipo distribua-se aleatoriamente na 
região. O quadro abaixo indica o número de quadrados com X Prímula Simenses; o número 
médio de plantas por quadrado foi de 2,2. 


X plantas 
por quadrado 

N 2 de quadrados 
com X plantas 

0 

26 

1 

21 

2 

23 

3 

14 

4 

11 

5 

4 

6 

5 

7 

4 

8 

1 

acima de 8 

0 


(a) Se as plantas realmente se distribuem aleatoriamente na região, qual a probabilidade 
de encontrarmos pelo menos duas Prímulas? 

(b) Dê as freqüências esperadas para os valores deX =0, X = 1 e X = 2. 

(c) Apenas comparando os resultados de (b) com as freqüências observadas, qual a 
conclusão a que você chegaria? 

(d) Quais as causas que você daria para a conclusão? 
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39. Uma fábrica produz válvulas, das quais 20% são defeituosas. As válvulas são vendidas 
em caixas com dez peças. Se uma caixa não tiver nenhuma defeituosa, seu preço de 
venda é $10,00; tendo uma, o preço é $8,00; duas ou três, o preço é $6,00; mais do que 
três, o preço é $2,00. Qual o preço médio de uma caixa? 

40. Um industrial fabrica peças, das quais 1/5 são defeituosas. Dois compradores A e 8, 
classificaram as partidas adquiridas em categorias I e 11, pagando $1,20 e $0,80 respec¬ 
tivamente do seguinte modo: 

CompradorA: retira uma amostra de cinco peças; se encontrar mais que uma defeituosa, 
classifica como II. 

Comprador 8: retira amostra de dez peças; se encontrar mais que duas defeituosas, 
classifica como II. 

Em média, qual comprador oferece maior lucro? 

41 . SeX ~ bín,p), prove que E(X) =np e Var(X) =npq. 

(Sugestão: calcule E(X ) e Var(X) para n = 1, 2,... etc.) 

42. Aceitação de um lote. Suponha que um comprador queira decidir se vai aceitar ou não 
um lote de itens. Para isso, ele retira uma amostra de tamanho n do lote e conta o 
número Xde defeituosos. SeX a, o lote é aceito, e se X >a, o lote é rejeitado; o número 
a é fixado pelo comprador. Suponha que n = 19 e a - 2. Use a Tabela I a fim de 
encontrar a probabilidade de aceitar o lote, ou seja, P (X ^2) para as seguintes propor¬ 
ções de defeituosos no lote: 


(b) p = 0,20 


(a) p =0,10 


(c) p = 0,05 


43. Prove que, quando n ->■ °° e p ->■ 0, mas de tal sorte que np ** A, temos 




Sugerimos que você use o fato: 1 


44. Suponha que X seja uma v.a. discreta, com f.p. p(x) = 2~ x , X = 1, 2, ... Calcule: 


(a) P (X ser par) (b) P(X ^ 3) ( c ) P (X > 10) 

45. Prove (6.4), (6.5) e (6.6). 

46. Prove que E(X) =Var(X) = A, se a P(X =k) for dada por (6.24). 

47. Prove a relação (6.19). 

48. Num teste tipo certo/errado, com 50 questões, qual é a probabilidade de que um aluno 


acerte 80% das questões, supondo que ele as responda ao acaso? 

49. Repita o Problema 48, considerando cinco alternativas para cada questão. 

50. Em um experimento binomial com três provas, a probabilidade de exatamente dois suces¬ 
sos é 12 vezes a probabilidade de três sucessos. Encontre p. 
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51. No sistema abaixo, cada componente tem probabilidade pde funcionar. Supondo inde¬ 
pendência de funcionamento dos componentes, qual a probabilidade de: 



(a) o sistema funcionar? 

(b) o sistema não funcionar? 

(c) exatamente dois componentes funcionarem? 

(d) pelo menos cinco componentes funcionarem? 

52. Prove que 

Uk +!: n P) - P pl ' "■ P> 

53. Encontre a mediana da v.a. Zcom distribuição 


z 

0 

1 

2 

3 

P(Z ) 

1/4 

1/4 

1/4 

1/4 


54. Encontre os quantis de ordens p =0,25, 0,60, 0,80 da v.a. Zdo exercício 53. 

55. Distribuição Geométrica. Suponha que, ao realizar um experimento, ocorra o evento/\ com 
probabilidade pou não ocorra A (ou seja, ocorre A c com probabilidade 1 - p). Repetimos 
o experimento de forma independente até que o evento A ocorra pela primeira vez. 

Seja X = número de repetição do experimento até que se obtenha A pela primeira vez. Então, 

P(X=j) = (1 - pV' 1 . p, 7=1, 2, 3. 

pois se X - j, nas primeiras j - 1 repetições A não ocorre, ocorrendo na y-ési ma. 

(a) Prove que X PiX=j) = 1. 

7=i 

(b) Mostre que E(X) = l/p e Var(X) = (1 - p)/p 2 . 

[Sugestão: E(X) = Éj -p(X=j) =pÈj ' (1 - p) J1 =pÉ d . Cf, com 1 - p = q] 

j= i i= i i=i dq 

( c) Se Se t são inteiros positivos, então 

P(X> s + t\X> s) =P(X>t). 
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Essa propriedade nos diz que a distribuição geométrica não tem memória. Essa proprie¬ 
dade é compartilhada pela distribuição exponencial, a ser estudada no Capítulo 7. 

56. (Meyer, 1965). O custo de realização de um experimento é $1.000,00. Se o experimento 
falha, um custo adicional de $300,00 tem de ser imposto. Se a probabilidade de sucesso 
em cada prova é 0,2, se as provas são independentes e continuadas até a ocorrência do 
primeiro sucesso, qual o custo esperado do experimento? 

57. Distribuição de Pascal. Considere a mesma situação experimental do Problema 55, só 
que agora o experimento é continuado até que o evento A ocorra pela r-ésima vez. Defina 
a v.a. y = número de repetições necessárias para que A ocorra exatamente r vezes. Note 
que, se r = 1, obtemos a distribuição geométrica. Mostre que 

P(Y = j) =( J r " J)p r g i-r , j = r, r + 1, ... 

58. A Desigualdade de Jensen. Vimos, na fórmula (6.4), que se h(x) -ax + b, então E[/l(X)] = 
/i[E(X)], ou seja, E (aX + b) = aE(X) + b. 

Esta fórmula pode não valer se h(x) não for linear. O que vale é o seguinte resultado, 
denominado Desigualdade de Jensen. Se h(x) for uma função convexa e X uma v.a., 
então 


E[h(X)]^h[E(X)], 

com igualdade se e somente se h for linear (ou se a variância de X for zero). 

Por exemplo, se h(x) = X 2 , então E (X 2 ) s* [E(X)] 2 , do que decorre que Var(X) = E (X 2 ) - 
[E(X)] 2 3s 0. 

Lembremos que uma função h é convexa se h((x +y)/2) (h(x) +h(y))/2, para todo parx, 

y no domínio de h. Em termos geométricos, h é convexa se o ponto médio da corda que 
une dois pontos quaisquer da curva representando h está acima da curva. A função h é 
côncava se -h for convexa. Por exemplo, log X é uma função côncava. 

59. Use o problema anterior para verificar as relações entre: 

(a) E(e x )ee Em ; 

(b) E(logX) e log [E(X)], para X >0; 

(c) E(l/X) e 1/E{X), para X =1= 0. 



Capítulo 7 


Variáveis Aleatórias Contínuas 


7.1 Introdução 

Neste capítulo iremos estudar modelos probabilísticos para variáveis aleatórias con¬ 
tínuas, ou seja, variáveis para as quais os possíveis valores pertencem a um intervalo 
de números reais. A definição dada no capítulo anterior, para v.a. discreta, deve ser 
modificada como segue. 

Definição. Uma função X, definida sobre o espaço amostrai Q e assumindo valores 
num intervalo de números reais, é dita uma variável aleatória contínua. 

No Capítulo 2 vimos alguns exemplos de variáveis contínuas, como o salário de 
indivíduos, alturas etc. A característica principal de uma v.a. contínua é que, sendo 
resultado de uma mensuração, o seu valor pode ser pensado como pertencendo a um 
intervalo ao redor do valor efetivamente observado. Por exemplo, quando dizemos 
que a altura de uma pessoa é 175 cm, estamos medindo sua altura usando cm como 
unidade de medida e portanto o valor observado é, na realidade, um valor entre 174,5 cm 
e 175,5 cm. 

Vejamos um exemplo para motivar a discussão que se segue. 

Exemplo 7.1 O ponteiro dos segundos de um relógio mecânico pode parar a qualquer 
instante, devido a algum defeito técnico, ou término da bateria, e vamos indicar por X 
o ângulo que esse ponteiro forma com o eixo imaginário passando pelo centro do 
mostrador e pelo número XII, conforme mostra a Figura 7.1. 


Tabela 7.1: Distribuição uniforme discreta. 


X 

cr 

6 o 

12 ° 

18 ° 


348 ° 

354 ° 

p ( x ) 

1/60 

1/60 

1/60 

1/60 


1/60 

1/60 
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Figura 7.1 Ilustração de uma v.a. X discreta. 



Medindo esse ângulo X em graus e lembrando que: 

(i) o ponteiro deve dar 60 "saltos" (ele dá um salto em cada segundo) para completar 
uma volta; 

(ii) acreditamos que o ponteiro tenha probabilidade igual de parar em qualquer ponto, 
então, a v.a. X tem distribuição uniforme discreta, com função de probabilidade dada 
pela Tabela 7.1 e representada graficamente na Figura 7.2. 


Figura 7.2: Distribuição uniforme discreta. 



Considerando esse mesmo problema com um relógio elétrico, para o qual o ponteiro 
dos segundos move-se continuamente, necessitamos de um outro modelo para repre¬ 
sentar a v.a. X. Primeiro, observamos que o conjunto dos possíveis valores de X não é 
mais um conjunto discreto de valores, pois X pode assumir qualquer valor do intervalo 
[0,360) = = {xelR:0s=x< 360}. Em segundo lugar, como no caso do relógio 
mecânico, continuamos a acreditar que não exista uma região de preferência para o 
ponteiro parar. Como existem infinitos pontos nos quais o ponteiro pode parar, cada 
um com igual probabilidade, se fôssemos usar o mesmo método usado para a v.a. 
discreta uniforme, cada ponto teria probabilidade de ocorrer igual a zero. Assim não 
tem muito sentido falar na probabilidade de que o ângulo X seja igual a certo valor, 
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pois essa probabilidade sempre será igual a zero. Entretanto, podemos determinar a 
probabilidade de que X esteja compreendido entre dois valores quaisquer. Por exem¬ 
plo, usando a Figura 7.1 como referência, a probabilidade de o ponteiro parar no 
intervalo compreendido entre os números XII e III é 1/4, pois esse intervalo corresponde 
a 1/4 do intervalo total. 

Podemos, pois, escrever 

P( 0°«X « 90°) = -j. 

Do mesmo modo, a probabilidade P(120° X *s 150°) = 1/12. Por menor que seja 
o intervalo, sempre poderemos calcular a probabilidade de o ponteiro parar num pon¬ 
to qualquer desse intervalo. E é fácil verificar que, nesse caso, dados dois números a e 
b, tais que 0 o a < b < 360°, a probabilidade de X e [a, b) é 

P (a «X < b) 

360° 

Através da divisão do intervalo [0 o , 360°) em pequenos subintervalos, podemos 
construir um histograma para as probabilidades da v.a. X (como fizemos para v.a contí¬ 
nuas no Capítulo 2). Ou ainda, como naquele capítulo, fazendo esses intervalos tende¬ 
rem a zero, podemos construir o histograma alisado da v.a. X, apresentado na Figura 7.3. 


Figura 7.3: Histograma alisado: distribuição uniforme contínua. 



O histograma alisado da Figura 7.3 corresponde à seguinte função: 


f(x) =< 


0, se x < 0 o 

1/360, se 0 o s£ x < 360° 
0, se x sã 360°. 


Como vimos na construção de histogramas, a área correspondente ao intervalo 
[a, b ) (hachurada na Figura 7.3) deve indicar a probabilidade de a variável estar entre a e 
b. Matematicamente, isso é expresso por meio da integral da função entre a e b; então, 


P(a ss X < b) = f b f(x)dx = f JL dx = P-jJ ., 

■'a 360 360 


pois a integral definida de uma função entre dois pontos determina a área sob a curva 
representativa da função, compreendida entre esses dois pontos. 

A função f(x) é chamada função densidade de probabilidade (f.d.p.) da v.a. X. 
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Podemos construir modelos teóricos para variáveis aleatórias contínuas, escolhen¬ 
do adequadamente as funções densidade de probabilidade. Teoricamente, qualquer 
função f, que seja não negativa e cuja área total sob a curva seja igual à unidade, 
caracterizará uma v.a. contínua. 

Exemplo 7.2. Se f(x) = 2x, para 0 x 1, e zero fora desse intervalo, vemos que f(x) 0, 
para qualquer x, e a área sob o gráfico de f(x) é unitária (verifique na Figura 7.4). 
Logo, a função f pode representar a função densidade de uma v.a. contínua X. 


Figura 7.4: f.d.p. da v.a. X do Exemplo 7.2. 



Para esse caso, P(0 X «= 1/2) é igual à área do triângulo de base 1/2 e altura 1, 
hachurado na Figura 7.4; logo, a probabilidade em questão é 

P(0^X^l/2)=l(|xl) = l. 

Observamos, então, que a probabilidade de essa v.a. assumir um valor pertencente 
ao intervalo [0, 1/2) é menor que a probabilidade de a variável assumir um valor 
pertencente ao intervalo [1/2, 1). 

A comparação das funções densidade dos dois últimos exemplos ajuda a entender seu 
significado. No primeiro exemplo, consideremos dois intervalos, /, = [a, b) e l 2 = [c, d), 
contidos no intervalo [0,360), com a mesma amplitude (b - a = d - c); então, 

fixe/,) =P(X e/ 2 ). 

O mesmo não acontece no segundo exemplo: dados dois intervalos de mes¬ 
ma amplitude, aquele mais próximo de 1 irá apresentar maior probabilidade. Ou 
seja, a probabilidade de que a v.a. X assuma um valor num intervalo de amplitu¬ 
de fixa depende da posição do intervalo; existem regiões com maior chance de 
ocorrer, e o que determina esse fato é a função densidade de probabilidade. Por¬ 
tanto, a f.d.p. é um indicador da concentração de "massa" (probabilidade) nos 
possíveis valores de X. Convém ressaltar ainda que f(x) não representa a probabi¬ 
lidade de ocorrência de algum evento. A área sob a curva entre dois pontos é que 
irá fornecer a probabilidade. 
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1. Dada a função 



2e~ 2x , X 3 = 0 


. O, x<0, 


(a) Mostre que esta é uma f.d.p. 

(b) Calcule a probabilidade deX >10. 


2. Uma v.a. X tem distribuição triangular no intervalo [0,1] se sua f.d.p. for dada por 


0, X < 0 

Cx, 0 x *£ 1/2 

C(l-x), 1/2 =£ x =£ 1 

0, x > 1. 


(a) Qual valor deve ter a constante C? 

(b) Faça o gráfico de f(x). 

(c) Determine P(X 1/2), P(X > 1/2) e P(l/4 *£X 3/4). 

3. Suponha que estamos atirando dardos num alvo circular de raio 10 cm, e seja X a 
distância do ponto atingido pelo dardo ao centro do alvo. A f.d.p. deX é 


f(x) = 


kx, seO =£ x 10 


. 0, para os demais valores. 


(a) Qual a probabilidade de acertar o centro do alvo, se esse for um círculo de 1 cm de 
raio? 

(b) Mostre que a probabilidade de acertar qualquer círculo concêntrico é proporcional à 
sua área. 


4. Encontre o valor da constante C se 


Hx) = 


C/x 2 , X 3= 10 

0, x < 10 


for uma densidade. Encontre P (X > 15). 


7.2 Valor Médio de uma Variável Aleatória Contínua 

Do que foi visto até aqui, deduz-se que qualquer função f(-), não-negativa, tal que 

£ f[x)dx = 1, 

define uma v.a. contínua X, ou seja, cria um modelo teórico para as freqüências 
relativas de uma v.a. contínua. A área compreendida entre dois valores, a e b, da 
abscissa x, sob a curva representativa de f(x), dá a probabilidade (proporção teórica) 
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da variável pertencer ao intervalo limitado pelos dois valores. Usando o conceito de 
integral, podemos escrever 


P (a ss X ss b) = í b f(x)dx. (7.1) 

■'a 

Vejamos agora como podemos definir a esperança (valor médio ou média) de uma 
v.a. contínua. Para isso, usaremos um artifício semelhante àquele usado na seção 3.1 
para calcular a média das variáveis quantitativas, com os dados agrupados em classes. 
Lá substituímos todos os valores de um intervalo (classe) por um único valor aproxima¬ 
do (o ponto médio do intervalo), e agimos como se a variável fosse do tipo discreto. 
Aqui iremos repetir esse artifício. 

Consideremos a v.a. X com função densidade f(x) e dois pontos a e b, bem próxi¬ 
mos, isto é, h = b - a é pequeno, e consideremos x 0 o ponto médio do intervalo [a, b]. 
Observando a Figura 7.5 é fácil verificar que 

P (a =£ X *£ b) = h f(x Q ), (7.2) 

o que significa aproximar a área da parte hachurada pelo retângulo de base h e altura 
f(x 0 ). É fácil ver que a aproximação melhora com h tendendo a zero. 


Figura 7.5 Área hachurada representa P(a =s X =£ b). 



Dividamos agora o intervalo [A, B], onde f(x) > 0, em n partes de amplitudes iguais a 
h = (B - A)/n (Figura 7.6) e consideremos os pontos médios desses intervalos, x y x 2 ,..., x n . 


Figura 7.6: Partição do intervalo [A, B], 
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Consideremos a v.a. Y n , assumindo os valores x v .... x n com as probabilidades 

Pi =p (Y n = x.) ~ f(x.)h. 

Dessa maneira, e de acordo com a definição de esperança, temos 

E(Y) = Jx.p, « fx. f(x)h, 


i =1 


/ =1 


que será uma aproximação da esperança E(X). Para determinar E[X) com maior preci¬ 
são, podemos aumentar o número de intervalos, diminuindo sua amplitude h. No limi¬ 
te, quando h -> 0, teremos o valor de E(X). Definamos, pois, 


E (X ) = lim E(Y) = Iim Sx ; f(x,)h. 


n ->°° i=l 


(7.3) 


Mas da definição de integral (veja Morettin et a/., 2005), temos que, se o limite 
(7.3) existe, ele define a integral de x f(x) entre A e B, isto é, 


E(X)= xf(x)dx. 


(7.4) 


Exemplo 7.3. Continuando com o Exemplo 7.2, observamos que, dividindo o in¬ 
tervalo [0, 1] em n subintervalos, teremos h = l/n, x. = (2/ -l)/2 n e f(x.) = (2/ - 1 )/n, 
/ = 1, 2,..., n. Portanto, 


/ =1 


/' =1 


na qual usamos o conhecido resultado que dá a soma dos quadrados dos primeiros n 
números ímpares. Logo, 


E(X) = lim (2 + — 
6 \ n 


n ! 3 


O mesmo resultado é obtido diretamente da relação (7.4): 


E(X) = L (x)(2 x)dx = 


2x 3 


Exemplo 7.4. No caso do relógio elétrico do Exemplo 7.1, obtemos 


E(X) = 


f* 1 

dx = 

1 X 2 

/ü 360 


[ 360 2 J 


360 


= 180, 


que é o valor esperado devido à distribuição uniforme das freqüências teóricas. 
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Como a função f(x) é sempre não-negativa, podemos escrever a esperança como 

E (X) = ll xf(x)dx. (7.5) 

A extensão do conceito de variância para v.a. contínuas é feita de maneira seme¬ 
lhante e o equivalente à expressão (6.2) é 

Var(X) =El(X - F(X)) 2 ] = /_” (x - E(X)) 2 f(x)dx. (7.6) 


Exemplo 7.5. Para os dois exemplos vistos anteriormente, teremos: 
(i) Para o caso do relógio, 


7*360 


Var(X) = I (x-180) 2 
(ii) Para o Exemplo 7.2, 
Var(X) = 


1 dx = 1 


360 


360 


360x 2 


+ 180 2 x 


360 


= 10.800; 


_lo 


x - — I 2 xdx = 2 


4x 3 2x 2 
9 9 


18 


Como no caso de v.a. discretas, o desvio padrão de uma v.a. contínua X é definido como 

DP(X) = VvãrÕT), (7.7) 

que é dado na mesma unidade de medida do que X. Deixamos a cargo do leitor a 
verificação de que o seguinte resultado vale, como conseqüência de (7.6): 

Var(X) = E(X 2 ) - [E(X )] 2 . (7.8) 

Como frisamos no Capítulo 6, freqüentemente usaremos outros símbolos para in¬ 
dicar os parâmetros discutidos, a saber: 

E (X) =ii(X), 

Var(X) = <t 2 (X ), 

DP(X ) = cr(X), 

ou simplesmente ju, o 2 e o, respectivamente, se não houver possibilidade de confusão. 


7.3 Função de Distribuição Acumulada 

Dada uma v.a. X com função densidade de probabilidade f(x), podemos definir a sua 
função de distribuição acumulada, F(x), do mesmo modo como foi definida no Capítulo 6: 

F(x) = P(X x), -oo <x < oo. (7.9) 

De (7.1) segue-se que 

F(x) =H f(t)dt, (7.10) 

para todo real x. 
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Exemplo 7.6. Retomemos o Exemplo 7.2. Temos 

r o, 


se x < 0 


F(x) = 


/ 2 tdt = x 2 , se 0 x < 1 

J 0 

/ l 2tdt + f* 0 dt = 1 , sex 1 . 

J o h 


O gráfico deF(x) está na Figura 7.7. 

Figura 7.7: f.d.a. da v.a. X do Exemplo 7.6. 


f(x) 



O 


X 


De (7.9), vemos que 0 F(x) «= 1, para todo x real; além disso, F(x) é não-decres- 
cente e possui as duas seguintes propriedades: 

(i) lim X _.j{x) = 0, 

(ii) lim x _ >co F(x) = 1. 

No Exemplo 7.6 temos, efetivamente, F(x) = 0, para x < 0 e F(x) =1, para x ss 1. 
Para v.a. contínuas, o seguinte resultado é importante. 

Proposição 7.1. Para todos os valores de x para os quais F(x) é derivável temos 

F'(x) = 4EM. = f( x ). 
dx 

Vamos usar esse resultado no exemplo a seguir. 

Exemplo 7.7. Suponha que 



seja a f.d.a. de uma v.a. X. Então, 



se x < 0 


se x 0. 
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Na Figura 7.8 temos os gráficos dessas duas funções. Veremos que f(x) é um caso 
especial da densidade exponencial, a ser estudada na seção 7.4.3. 

Figura 7.8 Distribuição exponencial (/? = 1) (a) f.d.a. (b) f.d.p. 



Se a e b forem dois números reais quaisquer, 

P(a <X ^b) =F(b) - F(a). (7.11) 

Esse resultado não será afetado se incluirmos ou não os extremos a e b na desi¬ 
gualdade entre parênteses. 


5. Calcule a esperança, a variância e a f.d.a. da v.a. X do Problema 2. 

6. Determine a esperança e a variância da v.a. cuja f.d.p. é 


f(x) = 


sen x, 0 x n/2 
0, caso contrário. 


7. Calcule a média da v.a. X do Problema 4. 

8. A v.a. contínua X tem f.d.p. 


f(x) = 


3x 2 , 

0 , 


-1 =S X 0 

caso contrário. 


(a) Se b for um número que satisfaz -1 < b < 0, calcule P (X >b IX < b/2). 

(b) Calcule E(X)eVar(X). 

9. Certa liga é formada pela mistura fundida de dois metais. A liga resultante contém certa 
porcentagem de chumbo, X, que pode ser considerada uma v.a. com f.d.p. 


f(x) = y 10 5 6 7 8 x(100 - x), 0 =£ x 100. 


Suponha que L, o lucro líquido obtido na venda dessa liga (por unidade de peso), seja 
dado porí. = C : +C 2 X. Calcule E(L), o lucro esperado por unidade. 
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10. A demanda diária de arroz num supermercado, em centenas de quilos, é uma v.a. com 
f.d.p. 


f(x) - 


' 2x/3, 
-x/3 + 1, 
0 , 


se 0 s£ x < 1 
se 1 =£ x < 3 
sex < 0 ou x > 3. 


(a) Qual a probabilidade de se vender mais do que 150 kg, num dia escolhido ao acaso? 

(b) Em 30 dias, quanto o gerente do supermercado espera vender? 

(c) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes dia¬ 
riamente para que não falte arroz em 95% dos dias? 

11. Suponha que X tenha f.d.p. f(x) do Problema 1. Calcule E(X ) e Var(X ). 

12. Seja X com densidade 

f(x) = í c d ” X 2 ): se -1 =£ X «= 1 
1 0, caso contrário. 


Calcule a média e a variância deX. 


7.4 Alguns Modelos Probabilísticos para Variáveis Aleatórias 
Contínuas 

De modo geral, podemos dizer que as v.a. cujos valores resultam de algum proces¬ 
so de mensuração são v.a. contínuas. Alguns exemplos são: 

(a) o peso ou a altura das pessoas de uma cidade; 

(b) a demanda diária de arroz num supermercado; 

(c) o tempo de vida de uma lâmpada; 

(d) o diâmetro de rolamentos de esferas; e 

(e) erros de medidas em geral, resultantes de experimentos em laboratórios. 

Dada uma v.a. contínua X, interessa saber qual a f.d.p. de X. Alguns modelos são 
freqüentemente usados para representar a f.d.p. de v.a. contínuas. A Iguns dos mais utiliza¬ 
dos serão descritos a seguir e, para uniformizar o estudo desses modelos, iremos em cada 
caso analisar: 

(a) definição; 

(b) gráfico da f.d.p.; 

(c) momentos: E(X),Var(X); 

(d) função de distribuição acumulada (f.d.a.). 

Outros modelos serão apresentados na seção 7.7. 
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7.4.1 O Modelo Uniforme 

O modelo uniforme é uma generalização do modelo estudado no Exemplo 7.1 e é 
o modelo mais simples para v.a. contínuas. 


(a) Definição. A v.a. X tem distribuição uniforme no intervalo [a, p\ se sua f.d.p. é 
dada por 


1 


f(x; a,p)=< 


p- a’ 

0 , 


se a ss x s= p, 

caso contrário. 


(7.12) 


(b) G ráfico. A Figura 7.9 representa a função dada por (7.12). 


Figura 7.9: Distribuição uniforme no intervalo [a, pl 



(c) Momentos. Pode-se mostrar (veja o Problema 29) que 

E(X)= 

Var(X) = u a}2 . 


(7.13) 

(7.14) 


(d) F.d.a, A função de distribuição acumulada da uniforme é fácil de ser encontra¬ 
da (veja o Problema 29): 

0, se x < a 


F(x) =P(X^x)=j o f(x)dx = 
cujo gráfico está na Figura 7.10. 


x- a 


, se a ss x < 15 


P- a' 

1 , sex^p, 


(7.15) 


Figura 7.10: f.d.a. de uma v.a. uniforme no intervalo [a, /?]. 
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Assim, para dois valores quaisquer c e d, c < d, teremos 

P (c < X d) =F(d) - F(c), 

que é obtida facilmente de (7.15). 

Usaremos a notação 

X ~ U(a, 15) 

para indicar que a v.a. X tem distribuição uniforme no intervalo [a, f}]. 


Exemplo 7.8, Um caso particular bastante interessante é aquele em que a = -1/2 e (5 = 
1/2. Indicando essa v.a. por U, teremos 


f ( u ) _ ( 1, se -1/2 =£ u *£ 1/2 
lo, caso contrário. 


N essa situação temos que 

E(U) =0, Var(U) =1/12 


e a f.d.a. é dada por 


Por exemplo, 


( u) =< 


0, seu < -1/2 

u +1/2, se -1/2 sg u < 1/2 
. 1, seu > 1/2. 


Pi- 1/4 ^ U ss 1/4) = F u (1/4) - F u (-l/4) = 1/2. 

Se quiséssemos facilitar o nosso trabalho, poderíamos tabelar os valores da f.d.a 
para essa variável U. Devido à simetria da área em relação a x = 0, poderíamos cons¬ 
truir uma tabela indicando a função G(u), tal que 


G(u) =P (0 ^ u) 


para alguns valores de u (veja o Problema 30). 

Dada uma v.a. uniforme X qualquer, com parâmetros a e (5, podemos definir a v.a. 
U como 

^ _ (5 + a 

U = . 2 ■ (7.16) 

p- a 

Segue-se que a transformação (7.16) leva uma uniforme no intervalo [a, f5] numa 
uniforme no intervalo [-1/2, 1/2] e para dois números quaisquer c e d, com c < d, 


c- 


13 + a 


d- 


13 + a 


'd- 


13 + a 


[5- a 


-<U 


[5- a 


=F„ 


f5- a 


- F„ 


p+a 


p- a 


P(c <X=sd)=F(d)-F(c) =P 
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Artifícios semelhantes a esse são muito úteis na construção de tabelas e programas 
para cálculos de probabilidades referentes a famílias de modelos. 

Um outro caso importante é para a = 0e/3 = l. Um número aleatório é um valor 
gerado de uma v.a. com distribuição uniforme no intervalo [0, 1], Veja Capítulo 9. 

7.4.2 O Modelo Normal 

Vamos introduzir, agora, um modelo fundamental em probabilidades e inferência es¬ 
tatística. Suas origens remontam a Gauss em seus trabalhos sobre erros de observações 
astronômicas, por volta de 1810, donde o nome de distribuição gaussiana para tal modelo. 

(a) Definição. Dizemos que a v.a. X tem distribuição normal com parâmetros /a e 
o 2 , -oo </u < +oo e 0 < o 2 < oo, se sua densidade é dada por 

f(x; jj., o 2 ) = —]= e _(x " -oo <x <co. (7.17) 

<tV27t 

Claramente, f[x\ /u, o 2 ) 0, para todo x e pode-se provar que £, f(x; /u, a 2 ) dx = 1. Veja o 

Problema 60. 

(b) Gráfico. A Figura 7.11 ilustra uma particular curva normal, determinada por 
valores particulares de /u e o 2 . 


Figura 7.11: f.d.p. de uma v.a. normal com média /u e desvio 
padrão o. 



(c) Momentos. Pode-se demonstrar que (veja o Problema 32): 

E(X)=ju, (7.18) 

Var(X) = a 2 . (7.19) 

A lém disso, f(x; çr, a 2 ) ->■ 0, quando x -> ±oo, ^ - cr e n + o são pontos de inflexão 
de f(x; ju, o 2 ), x = /u é ponto de máximo de f(x; çi, a 2 ), e o valor máximo é I/ctVZtt . A 
densidade f(x; /u, a 2 ) é simétrica em relação à reta x = çi, isto é, 

f(/u + x; n, a 2 ) = f(n - x; çi, o 2 ), 


para todo x real. 


(7.20) 
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Para simplificar a notação, denotaremos a densidade da normal simplesmente por 
f(x) e escreveremos, simbolicamente, 

X ~ A/í/i, a 2 ). 

Quando n = 0 e a 2 = 1, temos uma distribuição padrão ou reduzida, ou brevemente 
A/(0,1). Para essa a função densidade reduz-se a 

0(z) = -p= e _z2/2 -oo < z < oo. (7.21) 

V 2/r 

0 gráfico da normal padrão está na Figura 7.12. 


Figura 7.12: f.d.p. de uma v.a. normal pa¬ 
drão: Z ~ N(0,1). 



Se X ~ N(/s, a 2 ), então a v.a. definida por 

Z= XjlJL, (7.22) 

o 

terá média zero e variância 1 (prove esses fatos). 0 que não é tão fácil mostrar é que Z 
também tem distribuição normal. Isso não será feito aqui. 

A transformação (7.22) é fundamental para calcularmos probabilidades relativas a 
uma distribuição normal qualquer. 

(d) F.d.a. A f.d.a. F(y) de uma v.a. normal X, com média /u e variância <r 2 é obtida 
integrando-se (7.17) de -oo até y, ou seja, 

F (y) = ll f(x-, n. o 2 )dx, y £ IR. (7.23) 

A integral (7.23) corresponde à área, sob f(x), desde -oo até y, como ilustra a 
Figura 7.13. 
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Figura 7.13: Representação gráfica de F(y) como área. 



No caso específico da normal padrão, utilizamos a seguinte notação, que é universal: 

O(y) = jl (p(z)dz = 1/V~2ãr [_[ e z2/2 dz. (7.24) 

O gráfico de O(z) é ilustrado na Figura 7.14. 


Figura 7.14: f.d.a. da normal padrão. 


<D(z), 




0 

1 


Suponha, então, que X ~ N(/u, a 2 ) e que queiramos calcular 

P(a < X < b) = í b f(x)dx, (7.25) 

Ja 


onde f(x) é dada por (7.17). Ver Figura 7.15. 
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Figura 7.15: Ilustração gráfica da P (a =s X =s b) 
para uma v.a. normal. 



A integral (7.25) não pode ser calculada analiticamente, e portanto a probabilidade 
indicada só poderá ser obtida, aproximadamente, por meio de integração numérica. 
N o entanto, para cada valor de /a e cada valor de a, teríamos de obter P(a <X <b) para 
diversos valores de a e b. Essa tarefa é facilitada através do uso de (7.22), de sorte que 
somente é necessário construir uma tabela para a distribuição normal padrão. 

Vejamos, então, como obter probabilidades a partir da Tabela III. Essa tabela dá 
as probabilidades sob uma curva normal padrão, que nada mais são do que as cor¬ 
respondentes áreas sob a curva. A Figura 7.16 ilustra a probabilidade fornecida pela 
tabela, a saber, 

P(0 Z z c ), 

ondeZ ~ A/(0,1). 


Figura 7.16: P (0 =s Z =s z ) fornecido pela 
Tabela III. 



Se tomarmos, por exemplo, z c = 1,73, segue-se que 

P (0 ss Z ss 1,73) = 0,4582. 
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Calculemos mais algumas probabilidades (Figura 7.17): 

(a) P (-1,73 ssZs=0)=P(0s=Zss 1,73) = 0,4582, devido à simetria da curva. 

(b) P(Z =? 1,73) = 0,5 - P(0 ^ Z *£ 1,73) = 0,5 - 0,4582 = 0,0418, pois 
P(Z > 0) =0,5 = P(Z 0). 

(c) P[Z < -1,73) = P(Z > 1,73) = 0,0418. 

(d) P(0,47 « Z ^ 1,73) = P(0 ^ Z ^ 1,73) - P(0 ^ Z « 0,47) = 

= 0,4582 - 0,1808 = 0,2774. 


Figura 7.17: Ilustração do cálculo de probabilidades para a N (0,1). 



Suponha, agora, que X seja uma v.a. N(/j, a 2 ), com /u = 3 e a 2 = 16, e queiramos 
calcular P (2 s= X 5). Utilizando (7.22), temos 

P( 2«X «5) = p(lzJL ^ 5 ~ 

\ o o aí 


= P 





1 

2 


Portanto, a probabilidade de queX esteja entre 2 e 5 é igual à probabilidade de que 
Z esteja entre -0,25 e 0,5 (Figura 7.18). Utilizando a Tabela III, vemos que 

P (-0,25 ^ Z ^ 0,5) = 0,0987 + 0,1915 = 0,2902, 

ou seja, 

P (2 X 5) = 0,2902. 


Figura 7.18: Ilustração do cálculo de P (2 =s X «5) para a v.a. N (3,16). 
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Exemplo 7.9. Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro 
são distribuídos normalmente, com média de $10.000,00 e desvio padrão de $1.500,00. 
Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão. 
Encontrar a probabilidade de que o depósito seja: 

(a) $10.000,00 ou menos; 

(b) pelo menos $10.000,00; 

(c) um valor entre $12.000,00 e $15.000,00; 

(d) maior do que $20.000,00. 

Temos que /a = 10.000 e o = 1.500. Seja a v.a. X = depósito. 

(a) P (X « 10.000) = P ( Z ^ 10 'i° 5 00 10,000 ) = P(Z 0) = 0,5. 


(b) P (X =* 10.000) =P(Z =? 0) = 0,5. 


(c) P (12.000 < X < 15.000) =P 


12.000 - 10.000 ^ 7 ^ 15.000 - 10.000 
1.500 1.500 


= P (4/3 < Z < 10/3) = P (1,33 < Z < 3,33) = 0,09133. 


(d) P(X > 20.000) = p(z > 20.000 -^.00 0 j = p(z > 6,67) - 0. 


7.4.3 O Modelo Exponencial 

Outra distribuição importante e que tem aplicações em confiabilidade de sistemas, 
assunto de que já tratamos brevemente no Capítulo 5, é a exponencial. 

(a) Definição. A v.a. T tem distribuição exponencial com parâmetro /3 > 0 se sua 
f.d.p. tem a forma 


f(t; 15) = 


— p-w 

P ’ 

0 , 


se t =s 0 
se t < 0. 


Escreveremos, brevemente, 


(7.26) 


T ~ Exp(/3). 

(b) Gráfico. O gráfico de f(t; /3) = f(t) está ilustrado na Figura 7.8 (b), com (5 = 1. 

(c) Momentos. Usando integração por partes, pode-se demonstrar que (veja o 
Problema 41): 


E(T) =15, 
Var (T) =/5 2 . 


(7.27) 

(7.28) 
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Exemplo 7.10 0 tempo de vida (em horas) de um transistor pode ser considerado 
uma v.a com distribuição exponencial com [3 = 500. Segue-se que a vida média do 
transistor é E(T) = 500 horas e a probabilidade de que ele dure mais do que a média é 

P (T > 500) = £ f(t)dt = 1/500 £ 0 e- tl500 dt 

= 1/500 [-500e t/500 ] 5 00 = e- 1 = 0,3678. 


(d) F.d.a. Usando a definição (7.10), obtemos 


F(t) = 


0, se t < 0 
1 - e-w, se t =s 0. 


(7.29) 


O gráfico de F(t) está na Figura 7.8 (a), com 13 = 1. 

7.5 Aproximação Normal à Binomial 

Suponha que a v.a. / tenha uma distribuição binomial com parâmetros n = 10 e 
p =1/2 e queiramos calcular P(Y > 7). Embora seja uma v.a. discreta, vimos no Capí¬ 
tulo 2 que é possível representá-la por meio de um histograma, como na Figura 7.19. 
Vemos que P(Y = 7) é igual à área do retângulo de base unitária e altura igual a P(Y = 7), 
similarmente para P(Y =8) etc. Logo, P(Y 3= 7) é igual à soma das áreas dos retângulos 
hachurados na Figura 7.19. 


Figura 7.19: (P(Y 3= 7) para Y ~ lb(10, 1/2). 









ÓÍ23456789 10 


A idéia é aproximar tal área pela área sob uma curva normal, à direita de 6,5. Qual 
curva normal? Parece razoável considerar aquela normal de média 

iu=np = 10 x| =5 


e variância 


<7 2 = np( 1 - p) = 10 x y x y = 2,5. 


Veja a Figura 7.20. 
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Figura 7.20: Aproximação de P (Y s* 7) pela 
área sob a N (5; 2,5). 



Chamando X tal variável, com distribuição normal, 

P (Y ss 7) = P (X 6,5) = PI X —^ 5s 6,5 ~ B ) 
p(z 3= 6 ^_ 5 j = P (Z 3S 0,94) = 0,174, 

onde Z é, como sempre, N(0, 1). Utilizando a Tabela I, vemos que a probabilidade 
verdadeira é 0,172. 

Vamos calcular agora P (3 < Y «= 6) = P (Y = 4) + P (Y = 5) + P (Y = 6). Vemos, 
através da Figura 7.21, que a aproximação a ser feita deve ser 

r(3<r S 6)-r(3,5 S x s6 ,5)=r(«_l s z s w_6) 

= P (-0,94 « Z ss 0,94) = 0,653, 
ao passo que a probabilidade verdadeira é 0,656. 


Figura 7.21 Aproximação de P (3 < Y =s 6). 



A justificativa formal de tal aproximação é dada pelo chamado Teorema Limite Cen¬ 
tral, que será visto no Capítulo 10. A aproximação é boa quando np > 5 e n(l - p) > 5. 


jpin 


emas 


13. Atemperatura T de destilação do petróleo é crucial na determinação da qualidade final 
do produto. Suponha que T seja considerada uma v.a. com distribuição uniforme 
no intervalo (150, 300). Suponha que o custo para produzir um galão de petróleo 
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seja C x reais. Se o óleo for destilado a uma temperatura inferior a 200°, o produto obtido 
é vendido a C 2 reais; se a temperatura for superior a 200°, o produto é vendido a C 3 reais. 

(a) Fazer o gráfico da f.d.p. de T. 

(b) Qual o lucro médio por galão? 


14. SeX ~ A/(10, 4), calcular: 

(a) P( 8<X<10), 

(b) P(9 =£X =s 12), 


(c) P (X > 10), 

(d) P(X <8ouX > 11). 


15. Para X ~ A/(100, 100), calcule: 

(a) P(X < 115), 

(b) P(X s*80), 

(c) P(\X- 1001 « 10), 

(d) o valor a, tal que P (100 - a =£ X 100 +a) = 0,95. 

16. Para a v.a. X ~ N(/n, c 2 ), encontre: 

(a) P(X^h+2<7), 

(b) P(\X - /n\ =£ a), 

(c) o número a tal que P [/a - ao X n + ao) = 0,99, 

(d) o número b tal que P(X > b) -0,90. 

17. As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, 
com média 170 cm e desvio padrão 5 cm. 

(a) Qual o número esperado de alunos com altura superior a 165 cm? 

(b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas 
dos alunos? 

18. As vendas de determinado produto têm distribuição aproximadamente normal, com mé¬ 
dia 500 unidades e desvio padrão 50 unidades. Se a empresa decide fabricar 600 unida¬ 
des no mês em estudo, qual é a probabilidade de que não possa atender a todos os 
pedidos desse mês, por estar com a produção esgotada? 

19. Suponha que as amplitudes devida de dois aparelhos elétricos, D 1 e D 2 , tenham distribui¬ 
ções A/ (42, 36) e A/(45, 9), respectivamente. Se os aparelhos são feitos para ser usados por 
um período de 45 horas, qual aparelho deve ser preferido? E se for por um período de 


49 horas? 


20 . O diâmetro X de rolamentos esféricos produzidos por uma fábrica tem distribuição N (0,6140; 
(0,0025) 2 ). O lucro T de cada rolamento depende de seu diâmetro. Assim, 

T = 0,10, se o rolamento for bom (0,610 < X < 0,618); 

T = 0,05, se o rolamento for recuperável (0,608 < X < 0,610) ou (0,618 < X < 0,620); 

T =- 0,10, se o rolamento for defeituoso (X < 0,608 ouX > 0,620). 

Calcule: 

(a) as probabilidades de que os rolamentos sejam bons, recuperáveis e defeituosos. 

(b) E(T). 
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21. Suponha que um mecanismo eletrônico tenha um tempo de vida X (em 1.000 horas) que 
possa ser considerado uma v.a. contínua com f.d.p. f(x) = e~ x , X > 0. Suponha que o 
custo de fabricação de um item seja 2,00 reais e o preço de venda seja 5,00 reais. 

O fabricante garante total devolução se X « 0,9. Qual o lucro esperado por item? 

22. Seja Y com distribuição binomial de parâmetros íl -10 ep =0,4. Determine a aproxima¬ 
ção normal para: 

(a) P (3 < Y < 8), (b) P(Y^7), (c)P(Y<5). 

23. De um lote de produtos manufaturados, extraímos 100 itens ao acaso; se 10% dos itens 
do lote são defeituosos, calcule a probabilidade de 12 itens serem defeituosos. Use tam¬ 
bém a aproximação normal. 

24. A confiabilidade de um mecanismo eletrônico é a probabilidade de que ele funcione sob as 
condições para as quais foi planejado. Uma amostra de 1.000 desses itens é escolhida ao 
acaso e os itens são testados, obtendo-se 30 defeituosos. Calcule a probabilidade de se 
obter pelo menos 30 itens defeituosos, supondo que a confiabilidade de cada item é 0,95. 

7.6 Funções de Variáveis Contínuas 

Vimos, no Capítulo 6, como obter a distribuição de uma v.a. Y = h(X), se conhecer¬ 
mos a distribuição da v.a. discreta X. Vejamos, agora, o caso em que X é contínua. 
Suponhamos, primeiramente, que a função h seja estritamente monotônica, crescente 
ou decrescente. Neste caso, a inversa /r 1 estará univocamente determinada e podemos 
obter x = /rMy), para valores x e y das v.a. X e Y, respectivamente. Observando a Figura 
7.22, vemos que, se a densidade de X, f(x), digamos, for positiva no intervalo a < x < 
b, então a densidade de Y será positiva para h(a) < y < h(b), se h for crescente, e para 
h(b) < y < h(a), se h for decrescente. 


Figura 7.22: Função de uma v.a. 


y 

yl 



/ y = h(x) 




- h(a) 

h(b) - 



h(a) - 

h(b) - 


z' 

a b x a 

b * 

M 

i crescente (b) h 

decrescente 


Exemplo 7.11. Suponha X com a densidade do Exemplo 7.2 e considere Y = 3X + 4. 
Aqui, y = h(x) = 3x + 4, que é crescente (Figura 7.23 (a)). 
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Figura 7.23: Exemplos de funções de v.a. (a) Exemplo 7.11 (b) Exemplo 7.12. 



Denotando a densidade de Y por g(y), e como f(x) > 0 para 0 < x < 1, g(y) > 0 
para 4 < y < 7. 

Notemos que se podem obter probabilidades relativas ata partir da densidade de 
X. Por exemplo, 

P(Y > 1) = P(3X +4 > 1) = P(X > -1) =1. 

Vejamos como se pode obter g(y). Denotemos por G(y) a função de distribuição 
acumulada de Y. Da seção 7.3, sabemos que G'(y) = g(y), para todo valor de y para o 
qual G for derivável. Então, temos 

G (y) =P(Y ssy) =P(3X + 4^y) = p(x « =f(^A), 

onde estamos denotando por F(■) a função de distribuição acumulada de X. Usando a 
regra da cadeia para derivadas, temos 



do que decorre 



(y - 4), 

9 


se 4 < y < 7 
caso contrário. 


Exemplo 7.12. Suponha, agora, que X tenha densidade f(x) = 3x 2 /2, - 1 < x < 1 e que 
Y = e- x . Segue-se que h(x) = e x é uma função decrescente e x = -fn(y) (Figura 7.23 
(b)). Então, 


G(y) =P(Y y) =P(e- x =£ y) =P(X > -€n(y)) 
= 1- P(X -My)) =1 - F(-My)), 
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onde novamente F denota a f.d.a. de X. Derivando, obtemos a f.d.p. de Y, 

g{y ) = (Fn(y)) 2 , e- l <y <e. 

O seguinte resultado generaliza esses dois exemplos. 

Teorema 7.1 Se X for uma v.a. contínua, com densidade f(x) > 0 , a < x < b, então 
Y = h(X) tem densidade 


g(y) = Hh - 1 (y)) 


dx 

dy 


(7.30) 


supondo que h seja monotônica, derivável para todo x. Se h for crescente, g(y) > 
h(a) < y < h(b) e, se h for decrescente, g(y) > 0, h(b) < y < h(a). 


0 , 


Prova, Basta notar que G(y) =P(Y s= y) =P(h(X) y) e que essa probabilidade é igual 
a P(X /rMy)) = F(h^(y)), se h for crescente, e igual a 1 - F(/o My)), se h for decres¬ 
cente. Derivando G(y) obtemos o resultado, notando que a derivada (b My)) 1 = dx/dy > 0 
se h for crescente, e negativa se h for decrescente. 

Suponha, agora, que h não seja monotônica. Um caso de interesse que será usado 
mais tarde é Y = h(X) =X 2 (Figura 7.24). Temos 

G(y) =P(Y ^y) =P(X 2 ^y) = P(-Vy «X ^ Vy) 

= F(Vy) - F(-Vy), 

e derivando obtemos a densidade de Y, 

g(y) = ^ [ f(Vy) +f(-Vy) ], (7.31) 

onde f é a densidade de X. 

Se f(x ) =1, 0 < x < 1 (X é uniforme no intervalo [0, 1]), então 

9(y) = W 0<y<L 


Figura 7.24: Ilustração de Y = h(X) =X 2 . 
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25. Considere a v.a. X do Problema 2 e V =X +5. 

(a) Calcule P(Y «s 5,5). 

(b) Obtenha a densidade de Y. 

(c) Obtenha a densidade de Z = 2X. 

26. Suponha que a v.a. X tenha a densidade do Problema 8 . Se Y - 2X - 3/5, obter a 
densidade de Y. Calcule E(Y) e Var (Y). 

27. Suponha X ~ L/[-l, 1]. Calcule a densidade de V =X 2 e de 1/1/ = IX I. 

7.7 Outros Modelos Importantes 

Nesta seção vamos introduzir alguns modelos para v.a. contínuas que serão bas¬ 
tante utilizados na terceira parte deste livro, juntamente com o modelo normal, esses 
modelos são úteis para as v.a. de interesse prático, que na maioria dos casos assumem 
valores positivos e tendem a ter distribuições assimétricas à direita. 

7.7.1 A Distribuição Gama 

Uma extensão do modelo exponencial é estudado a seguir. 

Definição. A v.a. contínua X, assumindo valores positivos, tem uma distribuição gama 
com parâmetros a > 0 e /3 > 0, se sua f.d.p. for dada por 


1 


x a-l e -x/P i x > 0 , 

x < 0 . 


f(x; a, P) =< T(a)P a 

0 , 


(7.32) 


Em (7.32), r(a) é a função gama, importante em muitas áreas da Matemática, 
dada por 



(7.33) 


Não é difícil ver que r(a) = (a - 1) r(a - 1), se a = n for um inteiro positivo, 
r(n) = (n - 1)! e que r(l) = 1, r( 1/2) = 'ín. Veja o Problema 45. 

A Figura 7.25 ilustra a densidade (7.32) para a = 3 e j8 = 1. Sea = l obtemos a 
distribuição exponencial (7.26). M uitos casos de interesse têm a inteiro positivo. 
Usaremos a notação 


X ~ Gama(a, /3) 


para designar uma v.a. com a distribuição dada por (7.32). 
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Figura 7.25: Gráfico da f.d.p. de uma distribuição gama, a= 3, 
18=1. 



Pode-se demonstrar que: 

E(X) = a(5, Var(X) = a/3 2 . (7.34) 

7.7.2 A Distribuição Qui-Quadrado 

Um caso especial importante do modelo gama é obtido fazendo-se a = v/2 e (5 = 2, 
com v > 0 inteiro. 


Definição Uma v.a. contínua Y, com valores positivos, tem uma distribuição qui-qua- 
drado com v graus de liberdade (denotada X 2 (v)), se sua densidade for dada por 


f(y; v) =< 


T(vl2)2 v ^ 

0 , 


v/2 - l e -y/2 ( y > 0 

y < 0. 


(7.35) 


A Figura 7.26 ilustra os gráficos de (7.35) para v = 1, 2, 3. Segue-se de (7.34) que 

E(Y)=v, Var(Y)=2v. (7.36) 

A distribuição qui-quadrado tem muitas aplicações em Estatística e, como no caso 
da normal, existem tabelas para obter probabilidades. A Tabela IV, fornece os valores 
de y 0 tais que P(Y > y 0 ) = p, para alguns valores de p e de v. Ver Figura 7.27. 


Figura 7.26: Gráficos da distribuição qui-quadrado c 2 (n). 


f(y) ■ 

f(y) - 

fíy) 



y 

(a) v = 1 

y 

(b) v = 2 

y 

(c) v = 3 
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Figura 7.27 Valores tabelados da distribuição X 2 (v). 



Exemplo 7.13. Usando a Tabela IV, para v = 10, observe que P[Y > 2,558) = 0,99, ao 
passo que P(Y > 18,307) = 0,05. 

Para v > 30 podemos usar uma aproximação normal à distribuição qui-quadrado. 
Especificamente, temos o seguinte resultado: se Y tiver distribuição qui-quadrado com 
v graus de liberdade, então a v.a. 

Z =Í2Y- V 2v - 1 ~ A/ (0,1). 

Por exemplo, consultando a Tabela IV, temos que, se v = 30, 

P(Y > 40,256) = 0,10, 

enquanto que, usando a fórmula acima, temos que 

z = V 2 x 40,256 - V~59 = 1,292 
eP(Z > 1,292) = 0,099, que resulta ser uma boa aproximação. 

Exemplo 7.14. Considere Z ~ A/(0,1) e considere a v.a. Y =Z 2 . De (7.31) temos que a 
densidade de Y é dada por 

g[y) = [0K7) + 0(-Vy) L y > o, 

onde por 0(z) indicamos a densidade da A/(0,1). Resulta 

sf(y) = 7 =“ y 1/2 e-y' 2 , 

V 2 n 

e comparando com (7.35) vemos que Y ~ Z 2 (l). Temos, aqui, um resultado importante: 

O quadrado de uma v.a. com distribuição normal padrão é uma v.a. com distribuição Z 2 (l). 

De um modo mais geral, uma v.a. x 2 (v) pode ser vista como a soma de v normais 
padrões ao quadrado, independentes. 
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7.7.3 A Distribuição t de Student 

A distribuição t de Student é importante no que se refere a inferências sobre médias 
populacionais, tópico a ser tratado nos Capítulos 12 e 13. A obtenção da densidade 
está contida no teorema abaixo. 


Teorema 7.1. Seja Z uma v.a. A/(0,1) e Y uma v.a. Z 2 (v), com Z e Y independentes. 
Então, a v.a. 


t = 


Z 

VYTv' 


(7.37) 


tem densidade dada por 


f(t; v) = F((v + ^ (1 + t 2 /v)~ (v + 1)/2 , -oo < t < oo. (7.38) 
T(V/2)V 7TV 

Diremos que tal variável tem uma distribuição t de Student com v grous de liber- 
dade e a indicaremos por t(v). Pode-se provar que 

E(t)= 0, Var(t) = v>2, (7.39) 

v - 2 

e verificar que o gráfico da densidade de t aproxima-se bastante de uma A/(0,1) quan¬ 
do v é grande. Veja a Figura 7.28. 


Figura 7.28: A distribuição t de Student e a distri¬ 
buição normal padrão. 



Como essa distribuição é bastante utilizada na prática, existem tabelas fornecendo 
probabilidades relativas a ela. A Tabela V fornece os valores de t c tais que 

P(-t c < t(v) < t c ) = 1 - p, (7.40) 

para alguns valores de p e de v. 

0 nome Student vem do pseudônimo usado pelo estatístico inglês W. S. Gosset, 
que introduziu essa distribuição no início do século passado. 
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Exemplo 7.15. Se v = 6, então, usando a Tabela V, P(-1,943 < t(6) < 1,943) = 0,90, ao 
passo que P(t(6) > 2,447) = 0,025. Observe que, nessa tabela, há uma linha com v = °°, que 
corresponde a usar os valores da A/(0,1). Para n > 120 essa aproximação é muito boa. 

7.7.4 A Distribuição F de Snedecor 

Vamos considerar agora uma v.a. definida como o quociente de duas variáveis 
com distribuição qui-quadrado. 

O seguinte teorema, que não será demonstrado, resume o que nos vai ser útil. 


Teorema 7.2. Sejam U e V duas v.a. independentes, cada uma com distribuição qui- 
quadrado, com Vj e v 2 graus de liberdade, respectivamente. Então, a v.a. 


W = 


VNi 

vn; 


(7.41) 


tem densidade dada por 


g(w; vn v 2 ) 


vi/2 


IA/ 


(vi - 2)12 


r((v!+v 2 )/2) /Vj_ 
n v 1 /2)r(v 2 /2) \ v 2 ) (1 + VjW/v,)^ +V2)/2 


W > 0. 


(7.42) 


Diremos que 1/1/ tem distribuição F de Snedecor, com v 2 e v 2 graus de liberdade, e 
usaremos a notação 1/1/ ~ F(v 1( v 2 ). Pode-se mostrar que 


EW) =-*,<> Var(lV) = 2 v í(v, +v 2 - 2) 


v 2 - 2 


V!(v 2 - 2) 2 (v 2 - 4) 


(7.43) 


O gráfico típico de uma v.a. com distribuição F está na Figura 7.29. Na Tabela VI 
são dados os pontos f 0 tais que 


P {F (v 1( v 2 ) > fj = a, 


para a = 0,05, a = 0,025 e alguns valores de v 2 e v 2 . Para encontrar os valores inferio¬ 
res, usa-se a identidade 


F(vj, v 2 ) = 1/F (v 2 , Vj). 

Figura 7.29; Gráfico de distribuição F . 



(7.44) 
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Exemplo 7.16. Considere, por exemplo, 1/1/ ~ F(5, 7). Consultando a Tabela VI, 
P(F > 3,97) = 0,05 ou, então, P(F « 3,97) = 0,95. Digamos, agora, que desejamos 
encontrar o valor f 0 tal que P(F <f 0 )=o ,05. Da igualdade (7.44) temos 

0,05 = P {F (5,7) < f 0 } =P {1/F (7,5) < f„} =P{F (7,5) > l/f 0 }, 

e procurando na Tabela VI, para F(7,5), obtemos l/f 0 = 4,88 e, portanto, f 0 = 0,205. 

Na seção de Problemas e Complementos apresentamos algumas outras distribui¬ 
ções de interesse, como a log-normal, Pareto, Weibull e beta. 

Na Tabela 7.2 mostramos os principais modelos para v.a. contínuas, incluindo: a 
densidade, o domínio dos valores, os parâmetros, a média e a variância. 


Tabela 7.2: Modelos para variáveis contínuas. 


Modelo 

f(x) 

Parâmetros 

E (X ), Var(X) 

Uniforme 

l/(/3- a), a < x < /3 

a, P 

[a + p)l2, (P- a) 2 112 

Exponencial 

l/P e-W, t > 0 

P 

P. P 2 

Normal 

ws «p{(/))-”<«<•» 

AC o 

/í, C7 2 

Gama 

p~ a /r(a) X a ' 1 e- x/íi , x > 0 

P > 0, a > 0 

ap, ap 2 

Qui-quadrado 

O-v/2 

n v/2) y v,2 -^y>o 

V 

v, 2v 

t-Student 

r((v + iV2) / 1 + t> y. 

r(v/2)Vjrv V v / 

V 

0, v/(v- 2) 

F-Snedecor 

rí (Vl + V2) ") m 

V 2 J/vAl W 1 K _ 0 

Vi- v 2 

v 2 2v 2 2 (v! + v 2 - 2) 

r (| r (|ívJ (l+ ^' 

v 2 - 2 ’ v x {v 2 - 2) 2 ( v 2 - 4) 


7.8 Qucmtis 

No Capítulo 6 definimos o p-quantil Q[p) como o valor da v.a. discreta X satisfa¬ 
zendo as duas desigualdades de (6.26). 

No caso de uma v.a. contínua X, essa definição torna-se mais simples. Se F(x) 
designar a f.d.a. de X, temos que as desigualdades em (6.26) ficam: 

P(X^Q(p)) =F(Q(p))^p 


(7.45) 
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e 


P(X 3= Q(p)) = 1 - P(x < Q(p)) = 1 - P(X Q(p)) = 1 - F(Q(p)) =? 1 - p. 

(7.46) 

Mas (7.46) pode ser reescrita como 

F(Q(p))^p. (7.47) 

Portanto, de (7.45) e (7.47) chegamos à conclusão de que o p-quantil deve satisfazer 

F(0(p))=p. (7.48) 

Graficamente, temos a situação ilustrada na Figura (7.30). Ou seja, para obter 
0(p), marcamos p no eixo das ordenadas, consideramos a reta horizontal pelo ponto 
(0, p) até encontrar a curva de F(x ) e baixamos uma reta vertical até encontrar Q(p) 
no eixo das abscissas. Analiticamente, temos de resolver a equação (7.48). Vejamos 
alguns exemplos. 


Figura 7.30: Definição de Q(p) (a) f.d.a. (b) f.d.p. 


F(x) ■ 

1 

f(x) ' 

P 

P - 


Õ1 

Q(p) X Q(p) x 

(a) (b) 


Exemplo 7.17. Se Z ~ A/(0, 1), utilizando a Tabela III encontramos facilmente que 
0(0, 5) =0 2 = 0, 

0(0, 25) = 0, = -0,675, 

0(0, 30) = -0,52, 

0(0,75) = 0 3 = 0,675. 

Exemplo 7.18. Suponha que Y ~ Exp(2). Se quisermos calcular a mediana, 0 2 , tere¬ 
mos de resolver 

J 0 ° 2 f(y)dy = 0,5, 
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ou seja, 


Obtemos 


1/2 í° 2 e -y/2 dy = 0,5. 
1 - e-<V2 = 0,5, 


do que temos, finalmente, Q 2 = -2/n(0,5) = 1,386. 


7.9 Exemplos Computacionais 

Nesta seção final, vamos dar alguns exemplos de como obter probabilidades acumula¬ 
das para a normal e exponencial, usando o pacote M initab. Isso também pode ser feito 
com outros pacotes ou planilhas, bem como considerar outras distribuições contínuas. 

Considere a v.a. contínua X, com f.d.a. F(x) = P(X «= x). O problema é, dado x, 
calcular F(x), ou dado F(x), calcular x. 


Exemplo 7.19 Suponha X ~ A/(10, 25). Para obter F(x), para x = 8,65, usamos os 
comandos CDF e NORMAL do M initab. Por outro lado, se F(x) = 0,8269, então obte¬ 
remos x usando os comandos INVCDF e NORMAL. Veja o Quadro 7.1. 


Quadro 7.1 Obtenção de x e F (x) para a Normal. Minitab. 


MTB > CDF 8.65; 

MTB > INVCDF 0.8269; 

SUBC > NORMAL 10,25. 

SUBC > NORMAL 10,25. 

Cumulative Distribution Function 

Inverse Cumulative Distribution Function 

Normal withmean = 10.0000 and standard 

Normal with mean = 10.0000 and standard 

deviation = 25.0000 

deviation = 25.0000 

x P(X < = x) 

P(X < = x) x 

8.6500 0.4785 

0.8269 33.5496 


Exemplo 7.20. O Quadro 7.2 mostra cálculos similares para distribuição exponencial, 
com média 0,5, ou seja, parâmetro (3 = 2. 


Quadro 7.2 Obtenção de X e F (x) para a Exponencial. Minitab. 


MTB > CDF 0.85; 

MTB > INVCDF 0.345; 

SUBO EXPONENCIAL 0.5. 

SUBO EXPONENCIAL 0.5. 

Cumulative Distribution Function 

Inverse Cumulative Distribution Function 

Exponential with mean = 0.500000 

Exponential with mean = 0.500000 

x P(X < = x) 

P(X < = x) x 

0.8500 0.8173 

0.3450 0.2116 


Exemplo 7.21. Podemos, também, construir o gráfico de uma f.d.a, por meio de co¬ 
mandos do M initab. Suponha que Z ~ /V(0,1). Como os valores de Z estão concentra- 
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dos no intervalo [-4, 4], podemos considerar um vetor de valores z= [-4,0; -3,9; 
-3,8; ...; 3,8; 3,9; 4,0] e obter os valores da f.d.a. com o comando CDF. Depois, pedir 
para plotar os pares (4 F(z)). O gráfico está na Figura 7.31. 


Figura 7.31 : Gráfico da f.d.a. da N( 0,1). Minitab. 



7.10 Problemas e Complementos 


28. Numa determinada localidade, a distribuição de renda (em reais) é uma v.a. Xcom f.d.p. 




r —X + —, 0«x«2 

10 10 

2 <x=s 6 

40 20 


0 , 


x< 0 ou x> 6. 


(a) Qual a renda média nessa localidade? 

(b) Escolhida uma pessoa ao acaso, qual a probabilidade de sua renda ser superior a 

$3.000,00? 

(c) Qual a mediana da variável? 

29. Se X tiver distribuição uniforme com parâmetros aej8, mostre que: 

(a) E(X)= ^±1. 

(b) Var(X) = (/3-a) 2 /12. 


(c) F(x) = 


0, x< a 
x- a 


,a^x=sj3 


J3- a 
1, x>/3. 


30. Complete a tabela abaixo, que corresponde a alguns valores da função 

G(U) =P(0^U^U), 

definida na seção 7.4.1, com U uma v.a. uniforme no intervalo (-1/2, 1/2). 
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Probabilidades p, tais que p =P(0 =s U =s u) 



31. Dada a v.a. X, uniforme em (5,10), calcule as probabilidades abaixo, usando a tabela do 
problema anterior. 

(a) P(X < 7) (c) P(X> 8,5) 

(b) P(8 < X < 9) (d) P(\X- 7,51 > 2) 

32. SeX ~ N(jU, a 2 ), calcularE(X) e Var(X). 

[Sugestão: Fazendo a transformação de variáveis x=jU +at, obtemos que E(X) = 

^ / e 1/2 dt + ° / te 112 dt. A primeira integral resulta fj (por quê?) e a segunda 

d2n J -°° V2 nJ-oo 

anula-se, pois o integrando é uma função ímpar. Para obter a variância, obtenha E (X 2 ) 
por integração por partes.] 

33. As notas de Estatística Econômica dos alunos de determinada universidade distribuem-se 
de acordo com uma distribuição normal, com média 6,4 e desvio padrão 0,8. 
O professor atribui graus A, B eC da seguinte forma: 


Nota 

Grau 

x < 5 

C 

5 ss x < 7,5 

B 

7,5 «xs 10 

A 


Numa classe de 80 alunos, qual o número esperado de alunos com grau A ? E com grau 
B? E C? 

34. O peso bruto de latas de conserva é uma v.a. normal, com média 1.000 g e desvio 
padrão 20 g. 

(a) Qual a probabilidade de uma lata pesar menos de 980 g? 

(b) Qual a probabilidade de uma lata pesar mais de 1.010 g? 

35. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada 
por uma distribuição normal, com média de 5 kg e desvio padrão de 0,8 kg. Um abatedouro 
comprará 5.000 coelhos e pretende classificá-los de acordo com o peso, do seguinte modo: 
20% dos leves como pequenos, os 55% seguintes como médios, os 15% seguintes como 
grandes e os 10% mais pesados como extras. Quais os limites de peso para cada classe? 
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36. Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume 
médio de líquido em cada garrafa seja de 1.000 cm 3 e o desvio padrão de 10 cm 3 . Pode-se 
admitir que a variável volume seja normal. 

(a) Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990 cm 3 ? 

(b) Qual é a porcentagem das garrafas em que o volume líquido não se desvia da média 
em mais que dois desvios padrões? 

(c) O que acontecerá com a porcentagem do item (b) se a máquina for regulada de 
forma que a média seja 1.200 cm 3 e o desvio padrão 20 cm 3 ? 

37. O diâmetro de certo tipo de anel industrial é uma v.a. com distribuição normal, de média 
0,10 cm e desvio padrão 0,02 cm. Se o diâmetro de um anel diferir da média em mais que 
0,03 cm, ele é vendido por $5,00; caso contrário, é vendido por $10,00. Qual o preço 
médio de venda de cada anel? 

38. Uma empresa produz televisores e garante a restituição da quantia paga se qualquer televi¬ 
sor apresentar algum defeito grave no prazo de seis meses. Ela produz televisores do tipo A 
(comum) e do tipo B (luxo), com lucros respectivos de $1.000,00 e $2.000,00, caso não 
haja restituição, e com prejuízos de $3.000,00 e $8.000,00, se houver restituição. Suponha 
que o tempo para a ocorrência de algum defeito grave seja, em ambos os casos, uma v.a. 
com distribuição normal, respectivamente, com médias 9 meses e 12 meses, e variâncias 4 
meses 2 e 9 meses 2 . Se tivesse de planejar uma estratégia de marketing para a empresa, você 
incentivaria as vendas dos aparelhos do tipo A ou do tipo B ? 

39. Determine as médias das v.a. X, V eZ: 

(a) X uniforme em (1, 3), 7 =3X +4,Z =e x . 

(b) X tem f.d.p. f(x) =e~ x , X > 0, Y =X 2 , Z = 3/(X +1) 2 . 

40. Suponha queX tenha distribuição uniforme em [-a, 3a]. Determine a média e a variância 
deX. 

41 . Se T tiver distribuição exponencial com parâmetro p, mostre que: 

(a) E(T) = p. (b) Var(T)=/l 2 . 

42. Os dados a seguir representam uma amostra de firmas de determinado ramo de atividade 
de uma região. Foram observadas duas variáveis: faturamento e número de empregados. 


N- de empregados 

N- de empresas 

01-20 

35 

201- 50 

75 

501-100 

45 

1001-200 

30 

2001-400 

15 

4001-800 

8 

>800 

2 

Total 

210 


Faturamento 

N s de empresas 

01- 10 

18 

101- 50 

52 

501- 100 

30 

1001- 200 

26 

2001- 400 

24 

4001- 800 

20 

8001- 1600 

16 

16001-3200 

14 

32001-6400 

6 

>6400 

4 

Total 

210 
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(a) Calcule a média e a variância para cada variável. 

(b) Supondo normalidade para cada uma dessas variáveis, com parâmetros estimados 
pela amostra, calcule os valores esperados para cada intervalo de classe e compare 
com o observado. 

43. Suponha que a v.a. X tenha densidade f(x) = 1, para 0 <x <1e igual a zero no comple¬ 
mentar. Faça V =X 2 . 

(a) Determine F Y (y) -P(Y =sy), y real. 

(b) Determine a f.d.p. de Y. 

(c) Calcule E(X 2 ), utilizando a f.d.p. de X. 

(d) Calcule E {Y ), utilizando a f.d.p. de Y, e compare com (c). 

44. Dada a v.a. 

2 _ X ~ n x 

Ox 

determine a média e a variância deZ, sabendo-se que a f.d.p. deX é 

f(x) =e~ x , X > 0. 

45. (a) Prove que, se a for inteiro positivo, r(a) = (a- 1)!. 

(b) Prove que T[a + 1) = aT{a). 

(c) Calcule r(l) e r(l/2). 

(d) Prove que a média e a variância de uma v.a. X com distribuição gama (densidade 
em (7.32)) são, respectivamente, a/3e a/3 2 . 

46. Distribuição de Pareto. Esta é uma distribuição freqüentemente usada em Economia, em 
conexão com problemas de distribuição de renda. 

Dizemos que a v.a. X tem distribuição de Pareto com parâmetros a > 0, b > 0 se sua f.d.p. 
for dada por 

f( x ) a/b {b/x) a+ \ xs -b 

lo, x<b. 

Aqui, b pode representar algum nível mínimo de renda, X é o nível de renda e f(x) Ax dá a 
proporção de indivíduos com renda entre X ex +Ax. O gráfico de f(x) está na figura abaixo. 
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(a) Prove que f f(x)dx - 1. 

(b) Mostre que, para a > 1, E (X ) - —e para a > 2, Var(X) = 

a- 1 


ab 2 

(a- 1 ) 2 (a- 2) 


47. Distribuição lognormal. Outra distribuição usada quando se têm valores positivos é a 
distribuição lognormal. A v.a. X tem distribuição lognormal, com parâmetros fj e a 2 , 
-oo <n < oo, < 7 2 > 0, se V = TftX tiver distribuição normal com média fj. e variância a 2 . 
A f.d.p. de X tem a forma 


1 


f(x) = ^ 


xo^ln 

0 , 



sex > 0 
sex ^ 0. 


O gráfico de f(x) está na figura abaixo. 



(a) Prove que £(X) =e" + <7l/2 . 

(b) Se E(X) -m, prove que Var(X) =m 2 (e a2 - 1). 

48. Suponha queX tenha distribuição exponencial com parâmetro fí. Prove que 

PU>x) X) = p ( x> V’ Vt ' x ^°- 

Essa propriedade nos diz que a distribuição exponencial não tem memória. Por exemplo, se 
X for a vida de um componente eletrônico, a relação acima diz que, se o componente durou 
até o instante X, a probabilidade de ele não falhar após o intervalo t + x é a mesma de não 
falhar após o instante t. Nesse sentido, X "esquece" a sua idade, e a eventual falha do 
componente não resulta de uma deterioração gradual e sim de alguma falha repentina. 

49. SeX for uma v.a. contínua, com f.d.p. f(x), e se V -g(X) for uma função deX, então Y será 
uma v.a com 


E(Y)=[jMf(x)dx. 


Suponha queX tenha densidade 


f(x) = 


(y 2 )e\ 

( l /-òe~\ 


Obtenha E(Y),seY = |X |. 


x =s 0 
x > 0. 
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50. SeX for uniforme no intervalo [0,1], obtenha a média da v.a. V = (VpX 2 . 


51. Distribuição de Weibull. Um modelo que tem muitas aplicações na teoria da confiabilidade é 
o modelo de Weibull, cuja f.d.p. é dada por 

f , vS \al 3x /i - 1 e-“ í ' i , x^O 

0, x < 0, 

onde ae p são constantes positivas. A v.a. X pode representar, por exemplo, o tempo de 
vida de um componente de um sistema. 

(a) Se p - 1, qual a f.d.p. resultante? (b) Obtenha E(X) para P-2. 


52. Distribuição Beta. Uma v.a. X tem distribuição beta com parâmetros a > 0, P > 0, se sua 
f.d.p. for dada por 


1 



B(a, p) 
0 , 


xMl- x)^ 1 , 


0 < x < 1 
caso contrário. 


Aqui, B ( a , p) éa função beta, definida por 

B(a, p) = I X a -Hl - x)P- 1 dx. 

J 0 

É possível provar que B[a, p) =r(a)r(/3)/r(a + p). Afigura abaixo mostra a densidade 
da distribuição beta para a - p - 2. Para esse caso, calcule P(X « 0,2). Calcule a 
média e a variância deX para a-p - 2. 



a = p = 2 


53. Se na distribuição t de Student colocarmos v = 1, obteremos a distribuição de Cauchy, 

1 1 


f(x) = 


n 1 +x 2 


Mostre que E(X) não existe. 

54. Obtenha o gráfico da f.d.a. de uma v.a. T ~ Exp(0, 5), ou seja, E(T) -2, considerando 
20 valores de T e calculando os valores de F (t), como na seção 7.9. 

55. Idem, para 30 valores de uma uniforme no intervalo [-1,1]. 

56. Obtenha os quantis 0(0,1), 0 1( Q 2 ,Q 3 ,Q( 0,9) para uma v.a. X ~ A/(10; 16). 

57. Resolva a mesma questão para uma v.a. Y ~ X 2 (5). 
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58. Para uma v.a. com distribuição qui-quadrado, com vgraus de liberdade e vpar, vale a 
seguinte fórmula: 

P(X\v)>c)=e-^V & 

M j! ' 

Calcule essa probabilidade para os seguintes casos e compare com os valores tabelados 
na Tabela IV: 

(a) v = 4, c = 9,488; (b) v = 10, c =16. 

59. Usando a aproximação normal a uma variável qui-quadrado, calcular: 

(a) P(X 2 ( 35) > 49,76); (b) o valory tal que P(X 2 (40) > y) =0,05. 

60. Se X — N([i , cr 2 ), com densidade f(x) dada por (7.17), provemos que a integral 
I =Jf(x) dx - 1. Como esta integral é sempre positiva, mostremos que / 2 = 1. Novamente, 
como no Problema 32, fazemos a transformação X - jj + at e obtemos 
1 2 = e [t 15 )/2 dsdt , onde os limites de integração são - °° e Agora fazemos 
outra transformação, passando de coordenadas cartesianas para polares: S -r COS 0, t - 
r sen 0, de modo que dsdt -r drdO. Segue-se, integrando primeiro com relação a r e 
depois com relação a 0, que 




Capítulo 8 


Variáveis Aleatórias 
Multidimensionais 


8.1 Distribuição Conjunta 

Em muitas situações, ao descrevermos os resultados de um experimento, atribuímos 
a um mesmo ponto amostrai os valores de duas ou mais variáveis aleatórias. Neste capí¬ 
tulo, iremos nos concentrar no estudo de um par de variáveis aleatórias, indicando que 
os conceitos e resultados apresentados estendem-se facilmente a um conjunto finito de 
variáveis aleatórias. Um tratamento mais completo é dado ao caso de variáveis discretas, 
nas seções 8.1 a 8.4. 

Exemplo 8.1 Suponha que estamos interessados em estudar a composição de famílias 
com três crianças, quanto ao sexo. Definamos: 

X = número de meninos, 

I 1, se o primeiro filho for homem 
1 0, se o primeiro filho for mulher, 

Z = número de vezes em que houve variação do sexo entre um nascimento e outro, 
dentro da mesma família. 

Com essas informações, e supondo que as possíveis composições tenham a mes¬ 
ma probabilidade, obtemos a Tabela 8.1, onde, por exemplo, o evento HM H indica 
que o primeiro filho é homem, o segundo, mulher e o terceiro, homem. 

As distribuições de probabilidades das v.a. X, Y e Z podem ser obtidas dessa tabela 
e são dadas na Tabela 8.2. 
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Tabela 8.1: Composição de famílias com três 
crianças, quanto ao sexo. 


Eventos 

Probabilidade 

X 

Y 

z 

HHH 

1/8 

3 

1 

0 

HHM 

1/8 

2 

1 

1 

HMH 

1/8 

2 

1 

2 

MHH 

1/8 

2 

0 

1 

HMM 

1/8 

1 

1 

1 

MHM 

1/8 

1 

0 

2 

MMH 

1/8 

1 

0 

1 

MMM 

1/8 

0 

0 

0 


Tabela 8.2: Distribuições de probabilidades unidimensionais. 

_(a)_ _(b)_ _M 


X 

0 

1 

2 

3 

y 

0 

1 2 

0 

1 

2 

PM 

1/8 

3/8 

3/8 

1/8 

p(y) 

1/2 

1/2 

P(z) 

1/4 

1/2 

1/4 


A Tabela 8.3 apresenta as probabilidades associadas aos pares de valores nas variáveis 
X e Y. Nessa tabela, p(x, y) =P(X =x,Y =y) denota a probabilidade do evento{X =x e Y =y} = 
= {X = x} n {T = y}. Essa tabela é denominada distribuição conjunta de X e Y. 


Tabela 8.3: Distribuição bidimensional 
dav.a. (X, Y). 


(x,y) 

p(x, y) 

(0,0) 

1/8 

(1,0) 

2/8 

(1-1) 

1/8 

(2,0) 

1/8 

(2,1) 

2/8 

(3,1) 

1/8 


A partir da Tabela 8.1 podemos formar também as distribuições conjuntas de X e Z, 
de Y e Z, bem como a distribuição conjunta de X, Y e Z, que está dada na Tabela 8.4. 


Tabela 8.4: Distribuição conjunta das 
v.a. X,Y eZ. 


t x.y.z) 

pix.y.z ) 

(0, 0, 0) 

1/8 

(1,0,1) 

1/8 

(1,0, 2) 

1/8 

(1, 1, 1) 

1/8 

(2,0,1) 

1/8 

(2,1,1) 

1/8 

(2,1,2) 

1/8 

(3,1,0) 

1/8 
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Aqui, p(x, y, z) =P(X =x,Y = y, Z =z). Vamos nos fixar nas distribuições bidimensionais, 
isto é, nas distribuições conjuntas de duas variáveis. Nesse caso, uma maneira mais cômoda 
de representar a distribuição conjunta é por meio de tabelas de duplas entradas, como na 
Tabela 8.5, onde temos representada a mesma distribuição de X e Y, dada antes na Tabela 8.3. 


Tabela 8.5: Distribuição conjunta deX e Y, como uma tabela de dupla entrada. 



O 

1 

2 

3 

p(y) 

0 

1/8 

2/8 

1/8 

O 

1/2 

1 

O 

1/8 

2/8 

1/8 

1/2 

p(x) 

1/8 

3/8 

3/8 

1/8 

1 


A representação gráfica de variáveis aleatórias bidimensionais (X, Y) exige gráfi¬ 
cos com três eixos: um para a v.a. X, outro para a v.a. Y e um terceiro eixo z para a 
probabilidade conjunta p(x, y). A Figura 8.1 representa a distribuição conjunta resumida 
na Tabela 8.5. A dificuldade em desenhar e interpretar tais gráficos nos leva, muitas 
vezes, a evitar o uso desse recurso tão valioso. 


Figura 8.1 Representação gráfica da v.a. 
(X, Y) da Tabela 8.5. 



Uma tentativa de representar distribuições de probabilidades discretas em duas 
dimensões é o gráfico de curvas de níveis. Esse é o mesmo recurso utilizado em mapas 
geográficos sobre relevos, indicando-se por meio de linhas as cotas (alturas) de mes¬ 
ma intensidade em uma região. Curvas de níveis podem ser usadas também em mapas 
meteorológicos, de marés etc. 

Embora tais mapas sejam usados principalmente para variáveis contínuas, vamos 
exemplificar abaixo sua construção para os dados da Tabela 8.5. Notamos que existem valores 
apenas para as probabilidades 0, 1/8, 2/8 e 3/8, e cada um deles define um conjunto de 
pontos. Por exemplo, correspondendo à probabilidade 1/8 temos o conjunto de pontos (0, 0), 
(1, 1), (2, 0) e (3, 1). Na Figura 8.2 (b) representamos esses pontos, que corresponderiam à 
"curva de nível" para a cota 1/8. De modo análogo traçaríamos as demais curvas de níveis. A 
Figura 8.2 (e), reunindo todos os resultados, seria "equivalente" à Figura 8.1. Assim, os 
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pontos representados por x formariam a curva de nível da cota 1/8; os pontos representados 
por o formariam a curva de nível com cota (probabilidade) 2/8, e assim por diante. Esse 
recurso é mais bem visualizado para variáveis contínuas, como na Figura 8.17. 


Figura 8.2: Curvas de níveis para a Tabela 8.5. (a) p(x,y) =0 (b) 
p(x, y) = 1/8 (c) p(x, y) = 2/8 (d) todas as cotas 


y 

]às 


1 2 3 x 

(a) 


1 2 3 

(c) 



8.2 Distribuições Marginais e Condicionais 

Da Tabela 8.5 podemos obter facilmente as distribuições de X e Y. A primeira e última 
colunas da tabela dão a distribuição de Y, (y, p(y)), enquanto a primeira e última linhas da 
tabela dão a distribuição de X, (x, p(x)). Essas distribuições são chamadas distribuições 
marginais. 

Observamos, por exemplo, que 

p (X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) = 2/8 + 1/8 = 3/8 
e 

P (Y = 0) = P (X = 0, Y = 0) + P (X = 1, Y = 0) + P (X = 2, Y = 0) + P (X = 3, Y = 0) 

= 1/8 + 2/8 + 1/8 + 0 = 1 / 2 . 

Portanto, para obter as probabilidades marginais basta somar linhas e colunas. 

Quando estudamos os aspectos descritivos das distribuições com mais de uma variá¬ 
vel, vimos que, às vezes, é conveniente calcular proporções em relação a uma linha ou 
coluna, e não em relação ao total. Isso é equivalente aqui ao conceito de distribuição 
condicional. Por exemplo, qual seria a distribuição do número de meninos, sabendo-se 
que o primeiro filho é do sexo masculino? Ou seja, queremos calcular a probabilidade 
P(X = x|Y = 1). Da definição de probabilidade condicional, obtemos 

P(X =x\Y =1) = P(X P ( Y X = \ ) =1) =PW= D, 
para x = 0, 1, 2, 3. Pela Tabela 8.5 obtemos, por exemplo, 


( 8 . 1 ) 
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p(2\Y =1) =P(X =2\Y = 1) 


P(X =2,Y =1) _ 2/8 _ nn 
P(Y= 1) 1/2 ' 


Do mesmo modo, obtemos as demais probabilidades, e a distribuição condicional 
de X, dado que Y = 1, está na Tabela 8.6. 


Tabela 8.6: Distribuição condicional deX, dado que Y = 1. 


X 

i 

2 

3 

P(x|y = i) 

1/4 

1/2 

1/4 


Observe que p(x\Y = 1) = p(0|Y = 1) + ... + p(3|Y =1) = 1. 

Do mesmo modo, podemos obter a distribuição condicional de Y, dado que X = 2, 
que está na Tabela 8.7. 


Tabela 8.7: Distribuição condicional de Y, dado que 
X =2. 


y 

0 

1 

p(y|X =2) 

1/3 

2/3 


Podemos generalizar o que foi dito acima para duas v.a. X e Y quaisquer, assumin¬ 
do os valores x v x v ..., x n e y v y 2 , ..., y m , respectivamente. 


Definição Seja x /( um valor de X, tal que P(X = x ( ) = p(x) > 0. A probabilidade 


P(Y =y.|X = x.) = P{X Xi,Y Yi) 
y ‘ ' P (X =x.) 


j = 1. m, 


( 8 . 2 ) 


é denominada probabilidade condicional de Y =y J , dado que X = x., 

Como observamos acima, para x j fixado, os pares (y, P(Y =y |X = x ( .)), j = 1, ..., m, 
definem a distribuição condicional de Y, dado que X = x ( ., pois 


fp{Y=y. |X =x) = £ P(r =y ' ) 

■■ ' ' •• P (X = x,) 


i= 1 


1=1 


P(X =Xj) = 
P(X =x i ) 


Considere a distribuição condicional deX, dado que Y = 1, da Tabela 8.6. Podemos 
calcular a média dessa distribuição, a saber 

£(X^ = l) = lx J y+2x^+3x^=2. 

4 2 4 

Observe que E(X) = 1,5, ao passo que E(X\Y = 1) = 2. 

De modo geral temos a seguinte definição. 
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Definição A esperança condicional de X, dado que Y =y é definida por 

E(X\Y = y) =£x i P(X =xJY = y). 

Uma definição análoga vale para E(Y \X = x). 

Exemplo 8.2. Para a distribuição condicional de Y, dado que X = 2, da Tabela 8.7, temos 

E(T|X=2)=0Xy+lXy=y. 

Exemplo 8.3 Considere, agora, a distribuição conjunta das variáveis Y e Z, definidas 
no Exemplo 8.1. Da Tabela 8.1 obtemos a Tabela 8.8. Aqui, observamos que 

P(Z=z|y=y)= P(Z p ° y Z - = V y j =y) =P[Z =z) 

para quaisquer z = 0, 1, 2 e y = 0, 1. O que significa dizer que 

P(Z =z,Y =y) =P(Z =z) P(Y =y), 

isto é, a probabilidade de cada caseia é igual ao produto das respectivas probabilida¬ 
des marginais. Por exemplo, 

P (Z = 1, T = 1) = y =y X y =P(Z=1)P(T =1). 


Tabela 8.8: Distribuição conjunta de V e Z. 



0 

1 

2 

p ( y ) 

0 

1/8 

2/8 

1/8 

1/2 

1 

1/8 

2/8 

1/8 

1/2 

p(z) 

1/4 

2/4 

1/4 

1 


Também é verdade que 

P (Y =y\Z = z) = P (Y = y) 

para todos os valores de y e z. Dizemos que Y e Z são independentes. 

Definição. As variáveis aleatórias X e Y, assumindo os valores x v x 2 , ... e y v y 2 , ..., 
respectivamente, são independentes se, e somente se, para todo par de valores (x„ y t ) 
de X e Y, tivermos que 

P(X=x i ,Y=y j )=P(X=x i )P(Y=y j ). (8.3) 

Basta que (8.3) não se verifique para um par ( x jt y^), para que X e Y não sejam indepen¬ 
dentes. Nesse caso diremos que X e Y são dependentes. 

Essa definição pode ser estendida para mais de duas variáveis aleatórias. 
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Pro 




1. Lançam-se, simultaneamente, uma moeda e um dado. 

(a) Determine o espaço amostrai correspondente a esse experimento. 

(b) Obtenha a tabela da distribuição conjunta, considerando X o número de caras no 
lançamento da moeda e Y o número da face do dado. 

(c) Verifique seX e Y são independentes. 

(d) Calcule: 

1. P(X=1) 

2. P(X =£ 1) 

3. P (X < 1) 

4. P(X = 2,y = 3) 

5. P(XsO,y«4) 

6. P(X = 0,Y 3*1) 

2. Atabela abaixo dá a distribuição conjunta deX e Y. 

(a) Determine as distribuições marginais deX e Y. 

(b) Obtenha as esperanças e variâncias deX e Y. 

(c) Verifique seX e Y são independentes. 

(d) Calcule P (X = 1|Y = 0) e P(Y = 2|X = 3). 

(e) CalculeP(X«2)eP(X=2,Y^l). 


x 

Y 

1 

2 

3 

0 

0,1 

0,1 

0,1 

1 

0,2 

0 

0,3 

2 

0 

0,1 

0,1 


3. Considere a distribuição conjunta deX e Y, parcialmente conhecida, dada na tabela abaixo. 

(a) Complete a tabela, considerandoX e Y independentes. 

(b) Calcule as médias e variâncias de X e Y. 

(c) Obtenha as distribuições condicionais deX, dado que Y =0, e de Y, dado queX =1. 



8.3 Funções de Variáveis Aleatórias 

Retomemos a Tabela 8.5, que dá a distribuição conjunta das variáveis aleatórias X e Y. 
A partir dela, podemos considerar, por exemplo, a v.a. X + Y, ou a v.a. XY. A soma X + Y é 
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definida naturalmente: a cada resultado do experimento, ela associa a soma dos valores de 
X e Y, isto é, 

(X +Y)(oj) =X(co) +YM. (8.4) 

Do mesmo modo, 

(XY)(oj) =X(cü)Y(co). (8.5) 

Podemos, então, construir a Tabela 8.9. 


Tabela 8.9: Funções de variáveis aleatórias. 



X+Y 

XY 

pUj.y,) 

(0,0) 

0 

0 

1/8 

(0,1) 

1 

0 

0 

(1,0) 

1 

0 

2/8 

(1,1) 

2 

1 

1/8 

(2,0) 

2 

0 

1/8 

(2,1) 

3 

2 

2/8 

(3,0) 

3 

0 

0 

(3,1) 

4 

3 

1/8 


A partir dessa tabela, obtemos as distribuições de X + Y eXY, ilustradas nas Tabelas 
8.10 e 8.11. 


Tabela 8.10: Distribuição deX +Y. 


x +y 

0 

1 

2 

3 

4 

p(x+y) 

1/8 

2/8 

2/8 

2/8 

1/8 


Tabela 8.11: Distribuição de XY. 


xy 

0 

1 

2 

3 

p(xy) 

4/8 

1/8 

2/8 

1/8 


Vimos, no Capítulo 6, como calcular a esperança de uma v.a. Para as v.a X e Y da 
Tabela 8.5, temos: 

£ (X,=0xi + lx} + 2x| + 3xi=f =1,5, 

E(Y) = 0x1 + lx -L = 0,5. 

Da Tabela 8.10, obtemos 

f(X+r)=0xI + lxi+2xl+3xl+4xI = ^= 2. 

8 8 8 8 8 8 
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Notamos que E(X + T) = E(X) + EÍY). Poderia ser uma simples coincidência, mas 
essa relação é de fato verdadeira. 

Teorema 8.1. Se X for uma v.a. com valores x v ..., x n e probabilidades p(Xj), p(x„), 
Y for uma v.a. com valores y v ..., y m e probabilidades p(y 1 ) J ..., p(y m ), e se p(x., y) = 
P(X =x Y = y ), i = 1, ..., n,j = 1. m, então 


E(X + Y) =E(X) + E[Y). 

Prova. Observando a Tabela 8.9, podemos escrever 

n m 

E(X +Y) =ZZ(X; + y )p(x , y) 

/ =i j =i 1 * 1 > 

n m n m 

= I Sx,p(x ( , y) + X Xy,p(x., y). 

i =ij =i ' f— ij=i ‘ 


( 8 . 6 ) 


(8.7) 


,/n ,n 

Mas, para um /' fixo, Zy.iPU,,^) =p(x,), e para um j fixo, L i=1 p(x j ,y j ) =p(y j ), logo, 
podemos escrever 


n n m n m 

E(x) = Ix,p(x,) = Ix^ pix, y) = X X,x ( p(x (I y y ) 

I =1 i =1 i=1 ‘ /=1y =1 J 

e 

m m n n m 

E(Y) =Iy j p(y j ) = 2y j yp(x i ,y j )=21y j p(x i ,y). 

i=ii i i =i =i 1 j i =ij =i i 1 i 

Comparando essas duas últimas relações com (8.7), obtemos a relação (8.6). 

Do que foi visto acima, podemos concluir que, se X e Y são duas v.a. nas condições 
do Teorema 8.1, e se g(X, Y) for uma função deX e Y, então 


E[g(X, /)] =X^ i g(x j , y j )p(x j , y). 


( 8 . 8 ) 


Exemplo 8.4 Da Tabela 8.9 temos 

E(XY) = 0 x4+0x0+0x|-+lx4+2xj-+0x0 

O O O O 


É claro que o mesmo valor pode ser obtido da Tabela 8.11, isto é, se Z = XY e 
p(z) = p(xy), então 

E(Z)=E(XY) =0x|+lx|+2x|+3x| = l. 

Observamos que, neste caso, 

E(Z) =E(XY) =1 * E(X)E(Y) = (1,5) (0,5) =0,75, 
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ou seja, de modo geral, a esperança de um produto de duas v.a. não é igual ao produto 
das esperanças das v.a. No entanto, existem situações em que essa propriedade se 
verifica. O teorema seguinte apresenta uma dessas situações. 

Teorema 8.2 Se X e Y são variáveis aleatórias independentes, então 

E(XY) =E(X) E(Y). (8.9) 

Prova Nas condições do Teorema 8.1, usando (8.8) e (8.3), 

n m n m 

E(XY) =Z 1 Z 1 x i y j p(x i ,y j ) =Z i Zx i y j p(x i )p(y j ), 

logo, 

n m 

E(XY) = V x p(x )X y p(y) =E(X)E(Y). 

i= i 1 1 j =i i i 

A recíproca do Teorema 8.2 não é verdadeira, isto é, (8.9) pode ser válida e X e Y 
serem dependentes. Veja o Exemplo 8.7 abaixo. 

Observações, (i) Se tivermos um número finito de v.a. X v ..., X n , então (8.6) toma a forma 


E(X 1 + ... +X n ) =E(X 1 ) + ... +E(XJ. 

(8.10) 

SeXj, ..., X n forem v.a. independentes, então 


E(X 1 X 2 ... X) = E (Xj) E(X 2 ) ... E(X n ). 

(8.11) 


Exemplo 8.5, Nas seções 6.6.2 e 6.6.3 definimos a v.a. de Bernoulli e a v.a. binomial. 
Seja X o número de sucessos em n provas de Bernoulli. Definamos 

1, se no /-ésimo ensaio ocorreu sucesso 


X = 


0, se no /-ésimo ensaio ocorreu fracasso, 
/ = 1, 2, ..., n. Então, segue-se que 


X =X 1 +X 2 + ... +X n , 

e X v ..., X n são independentes. Se p = P (sucesso), então 

E(X.) = 1 xp + 0 x (1 - p) =p, / = 1, ..., n 

e, por (8.10), 

E(X) =E(X 1 ) + ... + E(Xj =np, 

o que demonstra a relação (6.16). A relação (6.17) será demonstrada na seção seguinte. 
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lemas 


4. No Problema 2, obtenha as distribuições deX + Y e de XY. Calcule E(X + Y ), E(XY ), 
Var(X +Y), Var(XY). 

5 . (a) No Problema 3, calcule £ (X +Y) e Var(X +Y). 

(b) Se Z = aX +bY, calcule a e b de modo que £ (Z) =10 e Var(Z) =600. 

6. Dois tetraedros (dados com quatro faces) com as faces numeradas de um a quatro são 
lançados e os números das faces voltadas para baixo são anotados. Sejam as v.a.: 

X: maior dos números observados; 

Y: menor dos números observados; 

Z=X+Y. 

(a) Construa a tabela da distribuição conjunta de X e Y. 

(b) Determine as médias e as variâncias deX, Y eZ. 

7 . Numa urna têm-se cinco tiras de papel, numeradas 1, 3, 5, 5, 7. Uma tira é sorteada e 
recolocada na urna; então, uma segunda tira é sorteada. Sejam X 2 e X 2 o primeiro e o 
segundo números sorteados. 

(a) Determine a distribuição conjunta deXj eX 2 . 

(b) Obtenha as distribuições marginais deXj eX 2 . Elas são independentes? 

(c) Encontre a média e a variância de X v X 2 e X = (X 2 +X 2 )/2. 

(d) Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida 
à urna antes da segunda extração? 

8. Numa urna têm-se cinco bolas marcadas com os seguintes números: -1, 0, 0, 0, 1. 
Retiram-se três bolas, simultaneamente; X indica a soma dos números extraídos e Y o 
maior valor da trinca. Calcule: 

(a) Função de probabilidade de (X, Y). 

(b) E(X)eVar(X). 

(c) Var(X +Y). 

9. Dada a distribuição conjunta deX e Y abaixo, determine a média e a variância de: 

(a) X+Y. 

(b) XY. 


\x 

Y 

1 

2 

3 

1 

5/27 

1/27 

3/27 

2 

4/27 

3/27 

4/27 

3 

2/27 

3/27 

2/27 


10. Suponha que X e Y tenham a seguinte distribuição conjunta: 


X \ x 

Y 

1 

2 

3 

1 

0,1 

0,1 

0,0 

2 

0,1 

0,2 

0,3 

3 

0,1 

0,1 

0,0 
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(a) Determine a f.p. de X + Y e, a partir dela, calcule E(X + Y). Pode-se obter a mesma 
resposta de outra maneira? 

(b) Determine a f.p. deXY e, em seguida, calcule E(XY). 

(c) Mostre que, embora E(XY) -E(X) E(Y),X e Y não são independentes. 

8.4 Covariância entre Duas Variáveis Aleatórias 

Vamos introduzir agora uma medida da relação linear entre duas variáveis aleatórias. 

Definição. Se X e Y são duas v.a., a covariância entre elas é definida por 

Cov(X, Y ) = E [(X - E (X ))(Y - E(Y ))], (8.12) 

ou seja, o valor médio do produto dos desvios de X e Y em relação às suas respectivas 
médias. 

Suponha que X assuma os valores x v ..., x n , e Y os valores y v ..., y m , e que P(X = 
x., Y = y) = p(x, y'). Então, (8.12) pode ser escrita 

n m 

Co v(X,Y) =t$lx.- E(X )][y - E(Y )]p(x, y). (8.13) 

i =i i = i ' i 1 i 

A fórmula (8.12) pode ser escrita de uma forma mais simples. Note que 
Cov(X,Y) =E [XY - XE(Y) - YE(X) +£(X)E(Y)] 

= E[XY) - E(X)E(Y) - E(Y)EÍX) +E(X)E(Y), 


ou seja, 


Cov(X, Y) =E(XY ) - E(X) E(Y). 


(8.14) 


Exemplo 8.6. Para as v.a. X e Y do Exemplo 8.1 (veja a Tabela 8.5), obtemos 

E (X) =1,5, E(Y) =0,5, E(XY) =1,0, 

de modo que 

Cov(X, Y) = 1,0 - (1,5) (0,5) = 0,25. 

Definição. Quando Cov(X, Y) = 0, dizemos que as variáveis aleatórias X e Y são não 
correlacionadas. 

Exemplo 8.7 Consideremos a distribuição conjunta de X e Y dada pela Tabela 8.12. 
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Tabela 8.12: Distribuição conjunta para o Exemplo 8.7. 


\ X 

Y 

O 

1 

2 

p(y) 

1 

3/20 

3/20 

2/20 

8/20 

2 

T/20 

1/20 

2/20 

4/20 

3 

4/20 

1/20 

3/20 

8/20 

pM 

8/20 

5/20 

7/20 

1,00 


Temos que: 


f(X)=0xi+lx|+2xl =0,95, 
E(y)=lxl+2x^+3x ^ =2,00, 
E(XY ) = 0 x Yq + 1X“^q + 2 x-^ +0x^+2x 

+ 4X M +0X ^ +3>< 2? +6>< è =1 ’ 90 ' 


x 

20 


do que obtemos 

Cov(X,Y) = 1,90 - (0, 95)(2,00) = 0. 

Portanto, as v.a. X eY desse exemplo são não-correlacionadas. 

Exemplo 8.8. Retomemos o Exemplo 8.3, para o qual vimos que Y e Z são indepen¬ 
dentes. É fácil ver que E(Z) =1 e E(Y ) = 1/2. DaTabela 8.8 obtemos que E[YZ) = 1/2, do 
que decorre que a covariância entre Y e Z é zero. 

De modo geral, seX eT forem independentes, então (8.9) é válida, logo, por (8.14) 
temos que Cov(X, Y) = 0. 

Vamos destacar esse fato por meio da 

Proposição 8.1 SeX e Y são duas variáveis aleatórias independentes, então Cov(X, Y) = 0. 

Em outras palavras, se X e Y forem independentes, então elas serão não- 
correlacionadas. A recíproca não é verdadeira, isto é, se tivermos Cov(X, Y) = 0, isso não 
implica queX eY sejam independentes. De fato, para as v.a. do Exemplo 8.7, a covariância 
entreX eY é zero, mas X e Y não são independentes, como podemos facilmente verificar. 
Podemos agora demonstrar o 

Teorema 8.3 (a) Para duas v.a. X eY quaisquer, temos 

Var(X +Y) =Var(X) +Var(T) + 2Cov(X, V); 


(8.15) 
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(b) se X e Y forem independentes, então 

Var(X+Y) =Var(X)+Var(Y). (8.16) 


Prova. 

(a) Var(X +Y) =E[{X +Y) - E(X +Y)] 2 

= E[X -E(X)+Y- E(Y )] 2 = E [X - E(X)] 2 +E[Y - E(Y)] 2 + 2E[(X - E(X))(Y - E(Y))], 
e da definição de covariância, obtemos (8.15). 

(b) A relação (8.16) segue imediatamente da Proposição 8.1. 

As relações (8.15) e (8.16) podem ser generalizadas para mais de duas variáveis. 
Em particular, seX^ ..., X n são v.a. independentes, então 

VaríXj + ... + X n ) = Var(Xj) + ... + Var(X„). (8.17) 


Exemplo 8.5. (continuação) Temos que 

Var(X.) = p(l - p), para todo / = 1, ..., n, 


logo 


Var(X) = VarUj) + ... + Var(X n ) = np(l - p), 
o que demonstra a relação (6.17). 

Vamos introduzir agora uma medida que não depende das unidades de medida de 
X e Y. O análogo descritivo para dois conjuntos de dados foi introduzido na seção 4.5. 


Definição O coeficiente de correlação entre X e Y é definido por 

„IY V\ - Cov(X, Y ) (8.18) 

p(X,Y o[X )o(Y) 


Exemplo 8.9. Para X e Y do Exemplo 8.7, a covariância entre X e Y é zero, logo p(X, Y ) 
= 0. Para X e Y do Exemplo 8.6, temos que Cov(X, Y) = 0,25. Verifique que Var(X) = 
0,75, Var(Y) = 0,25, logo 


p(X,Y) 


0,25 

V (0,75) (0,25) 


= 0,58. 


O seguinte resultado será demonstrado no Problema 48. 

Teorema 8.4 O coeficiente de correlação entre X e Y satisfaz a desigualdade 


-1 ^ p(X, Y) « 1. 

O coeficiente de correlação é uma medida da relação linear entre X ef. Quando 
p(X, Y) = ±1, existe uma correlação perfeita entre X e Y, pois Y = aX + b. Se p(X, Y) = 1, 
a > 0, e se p(X, Y) = -1, a < 0. O grau de associação linear entreX ef varia à medida 
que p(X, Y) varia entre -1 e +1. 
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As seguintes propriedades podem ser provadas facilmente (ver Problema 38). Se a 
e b são constantes, então: 

p(X +a,Y +b) =p(X,Y), (8.19) 

p(aX,bY) = -^ p(X,Y). (8.20) 

Ou seja, se ab > 0, p(aX, bY) = p(X, Y) e se ab < 0, p(aX, bY) = -p(X, Y). 

Exemplo 8.10. Ainda usando o enunciado do Exemplo 8.1, defina a v.a. 1/1/ como sendo 
o "número de meninas". A distribuição conjunta de X e 1/1/ está na Tabela 8.13. 


Tabela 8.13: Distribuição conjunta de X el/l/ para o Exemplo 8.10. 


X 

O 

1 

2 

3 

p(w) 

0 

O 

O 

O 

1/8 

1/8 

1 

0 

0 

3/8 

0 

3/8 

2 

0 

3/8 

0 

0 

3/8 

3 

1/8 

0 

0 

0 

1/8 

pM 

1/8 

3/8 

3/8 

1/8 

1 


É fácil ver que 

E(X) = E(W) = 1,5, 

Var(X) = Var(W) = 0,75, 

E(XW) = 1,5, 

do que segue que Cov(X, l/l/) = -0,75 e portanto p(X, l/l/) = -1. Esse é um resultado 
esperado, pois sabemos que X = 3 - W. 

Para se analisar a possível correlação entre duas v.a. X e Y é conveniente usar os cha¬ 
mados diagramas de dispersão, que consistem no gráfico dos pares de valores de X e Y. 

Exemplo 8.11. Na Figura 8.3 temos os diagramas de dispersão para as v.a. X e Y e X e 
Z, do Exemplo 8.1. 

Figura 8.3: Diagramas de dispersão para as v.a. do Exemplo 8.1. 

(a) X eY 


(b) X e Z 


z 





2 ■ 

• 

• 



1 ■ 

.2 

• 2 



O 

1 

2 

(b) 

3 

X 
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Na Figura 8.3(a), ao lado dos pontos (1, 0) e (2, 1), colocamos o número 2, para mostrar 
que esses pares têm probabilidades 2/8, ao passo que os demais têm probabilidades 1/8. 

Exemplo 8.12. O diagrama de dispersão das v.a. Y e Z do Exemplo 8.2 está ilustrado 
na Figura 8.4. Lembremos que, nesse caso, Y e Z são independentes. 


Figura 8.4: Diagrama de dispersão 
para as v.a. Y e Z do Exemplo 8.2. 


Y. 

1 ■ 

L 

• 2 • 

,2 

0 

1 2 Z 


Exemplo 8.13. Na Figura 8.5 temos o diagrama de dispersão das variáveis X e 1/1/ do Exemplo 
8.10. Observe que, nesse caso, existe uma relação linear perfeita entre as duas variáveis. 


Figura 8.5: Diagrama de dispersão para as v.a. X e 1/1/ do 
Exemplo 8.10. 


W* 

3<» 


2 - * 3 


•3 


O 1 


2 


X 


lemas 


11. Para as v.a. X e V do Problema 2 e usando os resultados do Problema 4, calcule Cov(X, Y) 
e p(X, Y). 

12. Considere a situação do Problema 10 do Capítulo 6. 

(a) Obtenha as distribuições deX +Y e |X - Y |. 

(b) Calcule E(XY), E(X/Y) e E(X +Y). 

(c) Verifique seX e Y são independentes. 
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(d) Verifique se E(XY) =E(X) E(Y). O que você pode concluir? 

(e) Verifique se EÍX/Y) = E(X)/E(Y). 

(f) Calcule Var(X +Y). É verdade que Var(X +Y) =Var(X) +Var(Y)? 

13. Sejam X e Y com a distribuição conjunta da tabela abaixo. Mostre que Cov(X ; Y) =0, mas 
X e Y não são independentes. 


" ""\ X 

Y \ 

-1 

0 

1 

-1 

0 

1/4 

0 

0 

1/4 

0 

1/4 

1 

0 

1/4 

0 


14. Lançam-se dois dados perfeitos. X indica o número obtido no primeiro dado e Y o maior 
ou o número comum nos dois dados. 

(a) Escreva por meio de uma tabela de dupla entrada a distribuição conjunta de X e Y. 

(b) As duas variáveis são independentes? Por quê? 

(c) Calcule as esperanças e variâncias deX e Y. 

(d) Calcule a covariância entreX e Y. 

(e) Calcule E(X +Y). 

(f) Calcule Var(X+Y). 

15. Uma moeda perfeita é lançada três vezes. Sejam: 

X: número de caras nos dois primeiros lançamentos; 

Y: número de caras no terceiro lançamento; e 
S: número total de caras. 

(a) Usando a distribuição conjunta de (X, Y), verifique seX e Y são independentes. Qual 
é a covariância entre elas? 

(b) Calcule a média e a variância das três variáveis definidas. 

(c) Existe alguma relação entre os parâmetros encontrados em (b)? Por quê? 

16. Depois de um tratamento, seis operários submeteram-se a um teste e, mais tarde, mediu-se 
a produtividade de cada um deles. A partir dos resultados apresentados na tabela ao lado, 
calcule o coeficiente de correlação entre a nota do teste e a produtividade. 


Operário 

Teste 

Produtividade 

1 

9 

22 

2 

17 

34 

3 

20 

29 

4 

19 

33 

5 

20 

42 

6 

23 

32 


17. O exemplo a seguir ilustra que p - 0 não implica independência. Suponha que (X, Y) 
tenha distribuição conjunta dada pela tabela abaixo. 

(a) Mostre que E(XY) =E(X) E(Y), donde p= 0. 

(b) Justifique por queX e Y não são independentes. 
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X 

Y 

-1 

0 

1 

-1 

1/8 

1/8 

1/8 

0 

1/8 

0 

1/8 

1 

1/8 

1/8 

1/8 


8.5 Variáveis Contínuas 

Nesta seção vamos considerar o caso de duas v.a. contínuas, X eY. Nesse caso, a 
distribuição conjunta das duas variáveis é caracterizada por uma função f(x, y), cha¬ 
mada função de densidade conjunta de X eY, satisfazendo: 

(a) f(x, y) =s 0, para todo par (x, y); 

/ oo roo 

J. f ( x ' y> dxd y = 

(c) P(a «= X «= b, c Y d) = ( b / c d f(x, y)dydx. 

A relação (b) nos diz que o volume sob a superfície representada por f(x, y) é igual 
a 1. A relação (c) dá a probabilidade do par (x, y) estar num retângulo de lados b-a e d-c. 

Exemplo 8.14. Suponha que f(x, y) = 4xy, 0 x 1, 0 =£ y *£ 1. Então, (a) está satisfeita e 

(í^xydxdy = 4 (xdx fjdy = 4[x 2 /2]J[y 2 /2]J = 1, 

o que mostra que (b) também está satisfeita. 

Calculemos P (X 1/2, Y 1/2). A Figura 8.6 mostra o domínio de variação de X e 
Y e a região para a qual X « 1/2, / « 1/2. Logo, por (c), 

P (X ss 1/2, Y =£ 1/2) = P (0 ss X =£ 1/2, 0 *£ Y ^ 1/2) 

AI2 r V2 

= I I 4 xydxdy = 4 [x 2 /2] 1 0 /2 [y 2 /2] 1 0 /2 = 1/16. 


Figura 8.6 Domínio de variação de (X,Y) 
para o Exemplo 8.14. 


Y 




1/2 







0 

1/2 

X 
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Exemplo 8.15. Suponha que a v.a. (X, Y) seja uniformemente distribuída no quadrado 
Q da Figura 8.6. Isso significa que 



se (x, y) g 0 
caso contrário. 


( 8 . 21 ) 


4 4 


Como vimos, (b) acima vale, logo / 0 / 0 cdxdy = 1 e segue-se que c = 1. Como a área de Q 
é 1, na realidade c = j . Veja a Figura 8.7. 

De modo geral, podemos representar a densidade bidimensional f(x, y) por uma 
superfície no espaço tridimensional, como ilustra a Figura 8.8. 


Figura 8.7 Densidade uniforme no quadra¬ 
do de lado unitário, com densi¬ 
dade condicional representada. 



Se A for um evento, então a probabilidade P((X, Y) e A) será representada pelo 
volume sob a superfície, delimitado pela região A, no plano (x, y), e pela superfície 
cilíndrica na Figura 8.8. 


Figura 8.8 Densidade como uma superfície no 
espaço e P ((X, Y) £ A) =P (A). 



Se a densidade f(x, y) for positiva numa região qualquer R do plano (x, y), uma v.a. diz-se 
uniformemente distribuída sobre R se f(x, y) = l/área(R), para (x, y) g R, e f(x, y) = 0 nos 
demais pontos. Veja a Figura 8.9. 
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Figura 8.9 Distribuição uniforme na região R do plano (x,y). 


f(x : 



plano paralelo 
ao plano (x, y) 


x 


Vimos que, no caso discreto, a partir da distribuição conjunta de duas v.a. X e Y, podíamos 
determinar a distribuição marginal de cada variável. O mesmo ocorre para v.a. contínuas. 

Freqüentemente, usaremos a notação (X, Y) para denotar o par de v.a. e diremos que 
essa é uma v.a. bidimensional. Usamos, também, a nomenclatura vetor bidimensional. 

Definição. Dada a v.a. bidimensional (X, Y), com função densidade de probabilidade 
conjunta f(x, y), definimos as densidades marginais de X e / respectivamente por 



( 8 . 22 ) 


e 



(8.23) 


Exemplo 8.16. Para as v.a. do Exemplo 8.14, temos 

f x M =/ 0 1 4xydy = 4x[y 2 /2]J = 2x, 0 x 1, 



Exemplo 8.17. Considere a v.a. (X, Y) com densidade conjunta 

f(x, y) = Y' 0 <x <i <y <e. 


Então, as densidades marginais são dadas por 


f x (x) = I* y dy = 2 x[My)]l = 2x, 0 < x < 1, 


= ( 
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Para o Exemplo 8.14, vemos que o produto das densidades marginais é igual à 
densidade conjunta, para todo par (x, y) do domínio [0,1] x [0,1], que é o produto 
cartesiano dos domínios de variação de X e Y. Dizemos que as v.a. são independentes. 

Definição. As variáveis aleatórias X e Y, com densidade conjunta f(x, y) e marginais 
f x (x) e f y (y), respectivamente, são independentes se 


f(x, y) = f x (x) f y (y), para todo par (x, y). 


(8.24) 


Exemplo 8.18. Se a função densidade conjunta de X e Y for dada por 

f(x, y) =e~ x -y, x > 0, y > 0, 

então é fácil ver que 


f x [x)=e~\ x > 0, 
f Y (y)=e~y, y> o, 


de modo que X eY são independentes. 

As definições de covariância, coeficiente de correlação etc. continuam, é claro, a 
valer para v.a. bidimensionais contínuas. Portanto, se X eY são independentes, o coe¬ 
ficiente de correlação entre elas é zero. 

Exemplo 8.19 Calculemos o coeficiente de correlação entre X eY, se a densidade 
conjunta delas for 


f(x, y)=x+y, 0<x<l, 0<y<l. 


Temos que as marginais são dadas por 



0 < x < 1, 


0 <y < 1. 


A partir delas, calculamos médias e variâncias: 



Var(X) =Var(T) = 5/12 - 49/144 = 11/144. 
Para calcular a covariância entre X ef necessitamos calcular 


E(XY) = [£xy(x + y)dx dy = £(yl 3 + y 2 /2 )dy = 1/3. 
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Logo, 

Cov(X,Y) = E(XY) - E(X)E(Y) = 1/3 - (7/12)(7/12) =-1/144. 

Finalmente, o coeficiente de correlação entre X eY é dado por 

n(x Y) = Co^.Y) = _A 
PK ‘ ' 1 o[X )a[Y) 11' 


emas 


18. As v.a. X et têm distribuição conjunta dada por 


f(x,y) = 


yx(x-y). 


0 <x <2, -x <y <x 
0, caso contrário. 

(a) Faça um gráfico do domínio de variação de X e y. 

(b) Prove que / J f(x,y)dxdy-1. 

(c) Encontre asf.d.p. marginais deX e Y. 

(d) Encontre a P (X 1). 

19. Suponha que as v.a. X e V tenham f.d.p. 

+y) f x > 0 , y > 0 


^ X1 0, nos demais pontos. 

(a) Calcule as f.d.p. marginais de X eY. 

(b) CalculeP(0<X <1,1<Y <2). 

(c) Calcule p(X,Y). 


8.6 Distribuições Condicionais Contínuas 

Nesta seção vamos tratar de obter a distribuição condicional de uma variável, dado 
que a outra assume um particular valor. Como sabemos, para uma v.a. contínua X, a 
P(X = x) =0, logo a definição a seguir tem de ser interpretada apropriadamente. 

Definição. A densidade condicional de X, dado que Y = y é definida por 

fjxiy) = fy(y) > 0, (8.25) 

e a densidade condicional de Y, dado que X = x é definida por 

= < 8 - 26 > 

A interpretação de (8.25), por exemplo, é a seguinte. Se y = y 0 , considere o plano 
passando por y 0 e paralelo ao plano (x, z). Esse plano determina na superfície f(x, y) = z 
a densidade condicional f w (x|y 0 ). Mesma interpretação vale para (8.26). Suponha, 
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por exemplo, que X denote o salário de um conjunto de indivíduos e Y denote o consu¬ 
mo deles. Então, fixado o consumo y 0 , a densidade condicional f w (x|y 0 ) representa a 
densidade dos salários para aquele nível fixado de consumo. Nas Figuras 8.7 e 8.10 
ilustramos como essa densidade condicional pode ser representada. 

Exemplo 8.20. Suponha que a densidade de (X, Y) seja dada por 
f(x, y) = 6(1 - x - y), 0 < x < 1, 0 < y < 1 - x. 

O domínio de variação dos pares (x, y) é o triângulo da Figura 8.11. 


Figura 8.10: Densidade condicional deX, dado 
que Y =y 0 . 



Figura 8.11 Domínio de variação de (X, Y) 
para o Exemplo 8.20. 



Temos, então, que as densidades marginais são dadas por: 

f x (x) = [ *6(1 - x - y)dy = 6[y - xy - y 2 /2]J~ x = 3(x - l) 2 , 0<x<l, 

w =£ 6( 1 - x - y)dx = 3(y - l) 2 , 0 <y < 1. 
Conseqüentemente, as densidades condicionais são 

fjw I - 2(1 ,;fi> y) ■ o<*<i-y. 

- 2(1 ( ;_*i)f 1 . 0<y<l-x. 

Observe que f xiy (x|y) define, de fato, uma densidade de probabilidade, para y fixa¬ 
do. Temos que 


f X]Y (x\y)dx = [ x f(x, y)/f Y (y) dx = l/f Y (y) [ m f(x, y)dx = f Y (y)/f Y (y) = 1. 

Por exemplo, se X = 0,5, f YlX (y |X = 0,5) = 4(1 - 2y), 0 < y < 1/2. Essa é uma densida¬ 
de que depende do valor observado de X. Assim, 

r V2 4/2 

P(0 <Y <1/2 |X = 0,5) = J Q f nx (y|0,5)dy = 4/ o (1 - 2y)dy = 1. 
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Dado que f XY (x\y) e f m (y|x) definem densidades de probabilidades, tem sentido em cal¬ 
cular suas médias, variâncias etc. 

Definição A esperança condicional de Y, dado que X = x, é definida por 

E(Y\x) = Hyf m (y\x)dy, (8.27) 

e definição análoga para E(X\y). 

Note que E(Y\x) é uma função de x, isto é, E(Y\x) = s(x), e é denominada curva de 
regressão de Y sobre x. Na realidade, E(T|x) é o valor da variável aleatória E(T|X). A 
mesma interpretação deve ser dada para E(X|y). A Figura 8.12 ilustra esses conceitos. 


Figura 8.12: Curvas de regressão de V sobre xe de X sobre y. 


E(X|y). 




y 



Exemplo 8.21, Suponha que 

f , x y \ _ [1/2, se x - y ss 0, x ^ 2, x, y > 0 
’ r [0, caso contrário. 

O domínio de variação de (x, y) está na Figura 8.13, juntamente com as curvas de 
regressão. 


Figura 8.13: Curvas de regressão para o Exemplo 8.21. 



Temos, então, 
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f x (x) = [ 1/2 dy = x/2, O < x < 2, 
f Y (y) = l 2 1/2 cfx = 1 - y/2, 0 < y < 2, 


e, portanto, as densidades condicionais são 

T,<yM = 1 /, 2 , =1/*. 0<y<x 


= 1^2 = 2^7 y<x<2 ' 


As esperanças condicionais serão dadas 


E(y|x) =yfy j dy = j, 

E(X\y)=f*x jry dx = l+^. 

Note, portanto, que ambas as curvas de regressão são funções lineares, como ilustra a 
Figura 8.13. No caso geral, a Figura 8.14 mostra como seriam essas médias condicionais. 


Figura 8.14: Representação gráfica da curva de regressão de Y sobre X. 



Problemas 


20. Calcule f w (x|y) e f m (y|x) para a densidade do Problema 18. 

21. Calcule as densidades condicionais para o Problema 19. Comente. 

22. Calcule as densidades marginais e condicionais para a v.a. (X, Y ), com f.d.p. 

f(x,y) =(l/64)(x+y), 0=sx«4, 0^y«4. 

23. Mesmos itens do Problema 22 para a f.d.p. conjunta 

f(x, y) = 3e~ (x+3y) , x > 0, y>0. 

24. Calcule as esperanças condicionais E(Y|x) e£(X|y) para o Problema 21. 
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25. Calcule as esperanças condicionais para o Problema 22. 

26. Prove que E(E(X |Y)) =E(X). 

(Sugestão: E(X |y) é uma função dey e portanto é uma v.a. Na realidade, E(X|y) é o valor 
da v.a. E(X|Y )! Considere a expressão para E(X|y) e tome a esperança novamente. Mude 
a ordem das integrais e obtenha o resultado.) 

8.7 Funções de Variáveis Contínuas 

0 tratamento desta seção é uma extensão daquele para uma variável contínua (ver 
seção 7.6). Considere duas variáveis X e Y, com função densidade conjunta f(x, y) e 
suponha que queremos obter a densidade das variáveis Z e 1/1/, tais que 

Z=h 1 (X,Y) 

W = h 2 (X, Y) 

Suponha que possamos expressar x e y em função de z e ia/, isto é, 

x = g Y (z, ia/), 
y = g 2 (z, ia/). 

Supondo que as derivadas parciais de x e y, em relação a z e ia/, existam e sejam 
contínuas, podemos obter a densidade conjunta de Z e 1/1/ através de 

g[z, w) = fig^z, i/v), g 2 (z, w))\J I, (8.28) 

onde J é o Jacobiano da transformação que leva (x, y) em (z, ia/), dado por 

9x 9x 
9z 9ia/ 

2 “ 9y _9y 
9z 9ia/ 

dx 

No caso unidimensional, Y = h(X ), J era simplesmente — , com x = /rHy). 

dy 

Exemplo 8.22, Retomemos o Exemplo 8.14, no qual tínhamos 

f x (x) =2x, 0 < x < 1, 
f Y (y) = 2y, 0 < y < 1, 

eX eY eram independentes. 

Suponha que queiramos determinar a densidade F z (z) da v.a. Z =XY. Considere 
1/1/ = X e portanto x = w, y = -^ eo ] acobiano é 


0 1 

1 cl 

1/1/ IA/ 2 


W ' 
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de modo que 


o(z. w) = 4 lv 1 - I = —, O < 1/1/ < 1 . O < —< 
y ' 1 ' w 1 1/1/ 1 1/1/ 1/1/ 

Segue-se queO<z<i/i/<lea densidade de Z é obtida por 

f z (z) = ['giz, w)dw = £ ^ dw =- 4 z tfi(z), 0 < z < 1 . 


lemas 


27. Encontre a densidade de Z = X +7 para X e V v.a. independentes, com f x (x) = 2x, 
0 <x < 1 e f Y (y) = 2y, 0 <y < 1. 

(Sugestão: considere 0 <z < 1 e 1 <z <2.) 

28. Se X tiver densidade f x (x) =2x, O^x^leV tiver densidade f Y (y) = y 2 /9, 0 « y ^ 3 e 
forem independentes, encontre a densidade de 1/1/ =XY. 

29. Encontre a densidade de Z = X/Y, se X e Y são independentes, com densidades 
f x (x) = e x , x > 0 e f y (y) = 2e- 2y , y > 0. 

(Sugestão: z = x/y, 1 / 1 / =y.) 


8.8 Distribuição Normal Bidimensional 

Assim como a distribuição normal é um modelo importante para variáveis contínuas 
unidimensionais, para v.a. contínuas bidimensionais podemos considerar o modelo 
normal bidimensional, definido a seguir. 


Definição. A variável (X, Y) tem distribuição normal bidimensional se sua densidade 
conjunta for dada por 


f(x, y) 


- , exp 

2^<J x <j y Vl - p 2 


1 

2(1 - p 2 ) 


/ X Px \ 2 _ 2 p (X /ix)(y 

A o* / 


+ (^r 

(8.29) 


para -oo <x <oo, -oo <y <oo. 

Aqui, estamos usando a notação exp{z} = e z . 

Vemos que a densidade em questão depende de cinco parâmetros: as médias p x e 
H y , que podem assumir quaisquer valores reais, as variâncias cr 2 e ct 2 , que devem ser 
positivas, e o coeficiente de correlação p entre X ef, que deve satisfazer -1 < p < 1. 
Dois exemplos de gráficos dessa densidade estão representados na Figura 8.15. 
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Figura 8.15: f.d.p. de normais bidimensionais. 

[o)n x =H y =0, cr =<7 y = l,p=0; (b) p x = p y = 0, cx = a y = 1, p = 0,6. 




As seguintes propriedades podem ser demonstradas: 

(a) As distribuições marginais de X e Y são normais unidimensionais, a saber 

X ~ N (p x , cr 2 ), Y ~ N (ju y , <j y 2 ). 

(W p = Corr(X, y). 

fcj As distribuições condicionais são normais, com 

f„(ylx)~N(n r +p%(x- M J, oja-p», 
f Xir (x|y) ~ A/(p x +p-J(y- p y ), o- x 2 (l - p 2 )). 

y 


Ou seja, as médias condicionais são funções lineares. Ver Figura 8.16. 

Figura 8.16: Curva de regressão deX sobre y para o caso da normal bidimensional. 
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Se chamarmos z = f(x, y), então z = c, constante, determina sobre a superfície uma 
curva de nível, que nesse caso é uma elipse. Variando c, teremos as diversas curvas de 
nível (que são curvas onde a densidade de probabilidade é constante), semelhantes às 
curvas de nível de um mapa de relevo. No caso em que p = 0 e as variâncias são 
iguais, isto é, = & , essas curvas serão círculos. Veja a Figura 8.17 

Vimos que p = 0 significa que as variáveis X e Y são não-correlacionadas. Aqui, 
poderemos concluir algo mais. Nessa situação poderemos escrever a densidade 
(8.29) como 


f(x, y) = 



e' _ 2 


ip- w 

2 \ Oxl 




(8.30) 


isto é, a densidade conjunta é o produto das duas marginais, que sabemos serem nor¬ 
mais. Ou seja, concluímos que X e Y são independentes. Portanto, no caso em que X e 
Y tiverem densidade conjunta normal bivariada, p = 0 é equivalente à independência 
entre X eY. 


Figura 8.17: Curvas de nível para a normal bidimensional. 



8.9 Problemas e Complementos 

30. Um sinal consiste numa série de vibrações de magnitude X, tendo os valores -1, 0,1, cada um 
com probabilidade 1/3. Um ruído consiste numa série de vibrações, de magnitude Y, tendo os 
valores -2,0,2, com probabilidades 1/6,2/3,1/6, respectivamente. Combinando-se o sinal com 
o ruído, obtemos o sinal efetivamente observado, Z =X +Y. Construa a função de probabilidade 
para Z e calcule a sua média e variância, admitindo que sinal e ruído são independentes. 

31. Numa comunidade em que apenas dez casais trabalham, fez-se um levantamento no 
qual foram obtidos os seguintes valores para os rendimentos anuais: 
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Casal 

Rendimento do Homem (X) 

Rendimento da Mulher (Y) 

1 

10 

5 

2 

10 

10 

3 

5 

5 

4 

10 

5 

5 

15 

5 

6 

10 

10 

7 

5 

10 

8 

15 

10 

9 

10 

10 

10 

5 

10 


Um casal é escolhido ao acaso entre os dez. Seja X o rendimento do homem e Y o da 
mulher. 

(a) Construa a distribuição de probabilidade conjunta deX e Y. 

(b) Determine as distribuições marginais deX e Y. 

(c) X e Y são v.a. independentes? Justifique. 

(d) Calcule as médias e variâncias de X e V e a covariância entre elas. 

(e) Considere a v.a. Z igual à soma dos rendimentos de cada homem e mulher. Calcule 
a média e variância deZ. 

(f) Supondo que todos os casais tenham a renda de um ano disponível, e que se oferece¬ 
rá ao casal escolhido a possibilidade de comprar uma casa pelo preço de 20, qual a 
probabilidade de que o casal escolhido possa efetuar a compra? 

32. Suponha que realizemos um experimento e os resultados possíveis sejam u> 1 , w 2 , co 3 , co 4 , co y 
Definamos as v.a. X e V cujos valores em cada ponto são dados na tabela a seguir. 


Resultado 

X 

Y 

", 

3 

1 

"2 

2 

2 

"3 

2 

0 

"4 

1 

0 

"5 

3 

2 


Obtenha as distribuições de probabilidades deX, Y,X +Y ,X - Y - 1 eX - Y, supondo que 
os cinco resultados tenham a mesma probabilidade. Faça um diagrama de dispersão 
para as variáveis X e Y. Idem para X eX + Y. 

33. Numa sala estão cinco crianças cujas idades são (em anos): 3, 3, 4, 5, 5. Escolhem-se 
três crianças ao acaso para formar uma trinca. X indica a idade da mais nova da turma, 
e Y a da mais velha. 

(a) Escreva a f.p. conjunta de X e Y. 

(b) Calcule E(X)eVar(X). 

(c) Calcule Cov(X,Y). 

(d) CalculeVar(X+Y). 
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34 . A distribuição de notas de certo tipo de teste é normal com /i H = 70 e a H - 10 para os 
homens e ju M = 65 e a M - 8 para as mulheres. Se esse teste for proposto numa classe na 
qual o número de homens é igual ao dobro do número de mulheres, qual a porcentagem 
de pessoas que deverá obter nota maior que 80? 

35 . S e E(X) -fie V ar(X ) -a 2 , escreva em função de p e a 2 as seguintes expressões: 

(a) £(X 2 ) (b) ElXlX-Dl 

36. Num estudo sobre rotatividade de mão-de-obra, foram definidas para certa população as 
v.a. X = número de empregos que um funcionário teve no último ano eY = salário. 
Obteve-se a seguinte distribuição conjunta: 


X 

/ 

1 

2 

3 

4 

800 

0 

0 

0,10 

0,10 

1.200 

0,05 

0,05 

0,10 

0,10 

2.000 

0,05 

0,20 

0,05 

0 

5.000 

0,10 

0,05 

0,05 

0 


São dados: E(X ) =2,5, DP(X) = 1,0, E(Y ) = 2.120, DP(/) =1.505,2. 

(a) Calcule P (X = 2) e P (X =21/ = 1.200); Xe/ são independentes? 

(b) Obtenha o coeficiente de correlação entreX e / e interprete esse coeficiente para as 
variáveis em estudo. 

37. Uma urna contém três bolas numeradas 0, 1, 2. Duas bolas são retiradas ao acaso e 
sucessivamente. Sejam as v.a. X = número da primeira bola retirada e / = número da 
segunda bola retirada. Calcule: 

(a) E(XY) (b) Cov(X,/) (c) VarU+Z), 

nos casos em que as bolas são retiradas (i) com reposição; (ii) sem reposição. 

38. Prove as relações (8.19) e (8.20) do texto. 

39. Se p(X, Y) for o coeficiente de correlação entre X e /, e se tivermos que Z - A X + B, 
W =CY + D, com A >0, C >0, prove que p(X,Y ) = p(Z, 1/1/). 

40. Uma urna contém n bolas numeradas de 1 até n. Duas bolas são retiradas sucessiva¬ 
mente, sem reposição. Determine a distribuição do módulo da diferença entre os dois 
números observados. 

41. Suponha queX e/sejam v.a. com Var(X) =1, Var(Z) =2 ep{X,Y) =1/2. DetermineVar(X - 2/). 

42. Sejam X e / v.a. com £ (X )=£(/) = 0e Var(X) = Var(/) =1. Prove qu e p(Z,U ) =0, se 
Z =X +YeU =X-Y. 

43. (a) Prove (8.9) para v.a.X eY contínuas. 

(b) Se X ~ N [p v <7 2 ) eY ~ N (ju 2 , oty, e se X e / são independentes, encontre a distribui¬ 
ção, a média e a variância da v.a. aX +bY, a e b constantes. 

(c) Um fato importante é o seguinte: seX 1( —,X n são v.a. normais e independentes, então 
Xj + ... + X n é uma v.a. normal. Qual é a média e a variância de X x + X 2 + 
+ ... +X n se cada X, ~ A/(p j( a 2 ), i - 1 ,..., n? 
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44. As v.a X eí do Problema 18 são independentes? Justifique. 

45. Mostre queX e Y do Problema 19 são independentes. 

46. Se X v X„ são v.a. independentes, cada X f com média p, e variância c 2 , i = 1, 2, n, 
calcule E(X) e Var(X), com X = (X 2 +... +X n )/n. 

47. Refaça o problema anterior para o caso de as v.a. terem todas a mesma média p e a 
mesma variância cr 2 . 


48. SuponhaE(X) -p v E(Y) -p 2 , Var(X) -o\, Var(Y) = c 2 , Cov(X,y) =cr 12 . Então, o coeficiente 
de correlação entre X eY é dado por 



p(X,Y ) =p = 


A função 


f(t)=E[(X-ju 1 )+t(Y-ju 2 )] 2 
= E[(X- p x ) 2 +2t(X - juJ(Y - ju 2 ) +t 2 (Y - ju 2 ) 2 ] 
= <T 2 + 2T(7 12 +f 2 <T 2 2 


é sempre positiva ou nula, quaisquer que sejam os parâmetros a\, o\ e <r 12 . Sendo um 
polinómio do segundo grau em t, o seu discriminante deve ser negativo ou nulo, isto é, 


A = 4(T 2 2 - 4o- 2 (T 2 2 0, 


do que decorre 



que implica p 2 1 e, finalmente, -l^p^l. 

49. Suponha que X ~ b(n, p) e Y ~ b(m,p), sendo ainda X e Y v.a. independentes. Mostre que 
X +Y~b(m+n;p). 

50. SeX e V forem v.a. independentes, com distribuições de Poisson, com parâmetros Aj e ^ 
respectivamente, mostre que X + V terá distribuição de Poisson com parâmetro 
Ai + Ai- 





Capítulo 9 


Noções de Simulação 


9.1 Introdução 

* 

Nos capítulos anteriores aprendemos a construir alguns modelos probabilísticos simples, 
que são úteis para representar situações reais, ou então para descrever um experimento aleató¬ 
rio. Notamos, também, que se especificarmos um espaço amostrai e probabilidades asso¬ 
ciadas aos pontos desse espaço, o modelo probabilístico ficará completamente determinado 
e poderemos, então, calcular a probabilidade de qualquer evento aleatório de interesse. 

Muitas vezes, mesmo construindo um modelo probabilístico, certas questões não podem 
ser resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproxi¬ 
mações de quantidades de interesse. De modo bastante amplo, estudos de simulação tentam 
reproduzir num ambiente controlado o que se passa com um problema real. Para nossos 
propósitos, a solução de um problema real consistirá na simulação de variáveis aleatórias. A 
simulação de variáveis aleatórias deu origem aos chamados métodos Monte Cario (M MC), 
que, por sua vez, supõem que o pesquisador disponha de um gerador de números aleatórios 
equiprováveis. Um número aleatório (NA) representa o valor de uma variável aleatória uni¬ 
formemente distribuída no intervalo (0, 1). Originalmente, esses números aleatórios eram 
gerados manualmente ou mecanicamente, usando dados, roletas etc. Modernamente, usa¬ 
mos computadores para gerar números que na realidade são pseudo-aleatórios. 

Para nossos propósitos, uma simulação pode ser entendida como uma particular 
realização do modelo (binomial, normal etc). Nesse sentido, os valores simulados po¬ 
dem ser considerados como uma amostra, como veremos nos capítulos seguintes. Esse 
entendimento será útil para estudar as distribuições de estimadores e suas propriedades. 

O nome M onte Cario está relacionado com a cidade de mesmo nome, no Principado de 
Mônaco, principal mente devido à roleta, que é um mecanismo simples para gerar números 
aleatórios. Os M M C apareceram durante a Segunda Guerra M undial, em pesquisas relacio¬ 
nadas à difusão aleatória de nêutrons num material radioativo. Os trabalhos pioneiros de¬ 
vem-se a Ulam, Metropolis, Fermi e von Neumann, por volta de 1948-1949. Alguns traba¬ 
lhos que podem ser consultados são os artigos de M etropolis e U Iam (1949) e von Neumann 
(1951) e os livros de Sóbol (1976), Hammersley e Handscomb (1964) e Ross (1997). 
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Para ilustrar, suponha que se queira calcular a área da figura F contida no quadrado 
Q de lado unitário (Figura 9.1). Suponha que sejamos capazes de gerar pontos aleatórios 
em Q, de modo homogêneo, isto é, de modo a cobrir toda a área do quadrado, ou, ainda, 
que esses pontos sejam uniformemente distribuídos sobre Q. Se gerarmos N pontos, 
suponha que AT desses caiam em F. Então, poderemos aproximar a área de F por N’/N. 
No caso da figura, uma estimativa da área é 24/200, pois geramos 200 pontos em Q e 24 
estão dentro de F. Quanto mais pontos gerarmos, melhor será a aproximação. 

Note que o problema em si não tem nenhuma componente aleatória: queremos 
calcular a área de uma figura plana. Mas, para resolver o problema, uma possível 
maneira foi considerar um mecanismo aleatório. Esse procedimento pode ser utilizado 
em muitas situações. 

Vejamos algumas maneiras de obter um número aleatório. 



Exemplo 9.1. Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor 0 
se ocorrer coroa. Os resultados possíveis são as sequências ou números binários abaixo: 

000 , 001 , 010 , 011 , 100 , 101 , 110 , 111 . 

Cada um desses números binários corresponde a um número decimal. Por exem¬ 
plo, (111) 2 = (7) 10 , pois (111) 2 = 1 x 2 2 + 1 x 2 1 + 1 x 2 o (o índice indica a base em que 
o número está sendo expresso). Veja Morettin et alli (2005). Considere a representação 
decimal de cada seqüência acima e divida o resultado por 2 3 - 1 = 7. Obteremos os 
números aleatórios 0, 1/7, 2/7, ..., 1. Observe que você poderá, eventual mente, consi¬ 
derar a seqüência 111 "menos aleatória" do que 010, digamos. Mas qualquer uma das 
oito seqüências anteriores tem a mesma probabilidade, a saber, 1/2 3 = 1/8. 

Suponha, agora, que você lance a moeda dez vezes. Teremos números binários 
com dez dígitos, e cada um terá probabilidade 1/2 10 = 1/1024. Assim, a seqüência 


1111111111 , 
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formada por "dez uns", parece "menos aleatória" do que a seqüência 

10 10 10 10 10 , 

formada por "cinco pares de dez", que por sua vez parece "menos aleatória" do que 
a seqüência 

0 110 1110 0 1 , 

que requer uma descrição mais elaborada. No entanto, todas elas têm a mesma proba¬ 
bilidade de ocorrer no experimento acima. Intuitivamente, a aleatoriedade de uma 
seqüência está ligada à dificuldade de descrevê-la em palavras, como fizemos acima. 

Para esse caso de dez lançamentos, procederíamos como no caso de três lança¬ 
mentos, dividindo os 1.024 números decimais obtidos por 2 10 - 1 = 1.023, para obter 
1.024 NA entre 0 e 1. De modo geral, lançando-se a moeda n vezes, teremos 2" possi¬ 
bilidades e os NA finais são obtidos por meio de divisão por 2 n - 1. 

Exemplo 9.2. Números aleatórios também podem ser gerados usando-se uma roleta 
como a da Figura 9.2, com dez setores numerados 0, 1, 2, ..., 9. 

Gire a roleta dez vezes e anote os números obtidos numa coluna. Faça a mesma 
coisa mais duas vezes, de modo a obter algo como: 


6 

1 

O 

9 

4 

4 

5 

0 

4 

5 

1 

0 

2 

5 

4 

6 

3 

9 

1 

2 

9 

3 

8 

0 

2 

2 

6 

0 

7 

9 


Figura 9.2: Roleta com dez setores. 



Agora, divida cada número em cada linha por 1.000, para obter os NA 


0,610; 0,944; 0,504; 0,510; 0,254; 0,639; 0,129; 0,380; 0,226; 0,079. 


Para obter NA com quatro casas decimais, basta girar a roleta quatro vezes. Na 
realidade, os números acima foram obtidos de uma tabela de números aleatórios, 
como aquela da Tabela VII. No exemplo, iniciamos no canto superior esquerdo e 
tomamos as três primeiras colunas com dez dígitos cada. Tabelas de números ale¬ 
atórios são construídas por meio de mecanismos como o que descrevemos. O pro¬ 
blema que enfrentamos muitas vezes é o de gerar uma quantidade muito grande de 
números aleatórios, da ordem de 1.000 ou 10.000. O procedimento de simulação 
manual, usando uma tabela de números aleatórios, pode se tornar muito trabalhoso 
ou mesmo impraticável. 
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A solução alternativa é substituir a simulação manual por simulação por meio de 
computadores, utilizando números pseudo-aleatórios, em vez de números aleatórios. 

Os números pseudo-aleatórios (NPA) são obtidos por meio de técnicas que usam 
relações matemáticas recursivas determinísticas. Logo, um NPA gerado numa iteração 
dependerá do número gerado na iteração anterior e, portanto, não será real mente aleató¬ 
rio, originando o nome pseudo-aleatório. 

Há vários métodos para gerar NPA. Um dos primeiros, formulado pelo matemático 
John von Neumann, é chamado o método de quadrados centrais (veja o Problema 18). 
Um método bastante utilizado em pacotes computacionais é o método congruencial, 
discutido nos Problemas 1 e 2. 

Os diversos pacotes aplicativos, estatísticos ou não, utilizam métodos como o 
congruencial para implementar sub-rotinas de geração de NPA. Como exemplos de pa¬ 
cotes, citamos o NAG (Numerical Algorithm Group), atualmente incorporado ao pacote 
MATLAB, eo IMSL. 

O pacote estatístico M initab usa os comandos Random e Uniform para gerar NPA. 

Exemplo 9.3. Temos no Quadro 9.1 um exemplo de geração de dez NA. O comando 
"Random 10 Cl" seguido de "Uniform 0,1" pede para gerar dez NA e guardá-los na 
coluna Cl. 


Quadro 9.1 : Geração de números 
aleatórios. Minitab. 


MTB > RANDOM 10 Cl; 

SUBC > UNIFORM (O, 1). 


Cl 

1 

0.590042 

2 

0.859332 

3 

0.021023 

4 

0.340748 

5 

0.673675 

6 

0.558276 

7 

0.911412 

8 

0.775391 

9 

0.867138 

10 

0.865328 


O pacote SPIus usa o comando runif(n, min, max), onde n é o número de valores a gerar 
e (min, max) é o intervalo no qual se quer gerar os NPA. No nosso caso, min = 0 e max = 1. 

Exemplo 9.4 O comando “u < - runif( 10,0,1)" pede para gerar dez NA e guardá-los 
no vetor u. O comando “u" imprime os dez valores. Veja o Quadro 9.2. 
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Quadro 9.2: Geração de números aleatórios. SPlus. 


> u <- runif (10, 0, 

D 



> u 




[1] 0.6931500 

0.8586156 

0.1494293 

0.2947197 

0.3474523 

0.7571899 

0.3016043 

0.3051952 

[9] 0.9135144 

0.7996542 




A planilha Excel usa a função ALEATÓRIO0 para gerar NA, ou então "Geração de 
números aleatórios", escolhendo a opção "Análise de Dados" do menu "Ferramentas". 

Exemplo 9.5 O Quadro 9.3 mostra, na coluna A, o resultado de gerar 20 NA usando 
o Excel. Foi utilizada a opção Uniforme (0,1). 


Quadro 9.3: Geração de números aleatórios. Excel. 



A 

B 

C 

D 

E 

F 

G 

1 

0.382 

0 

5 

1 

0.77423 

1 

2 

2 

0.100681 

1 

4 

1 

0.91015 

2 

9 

3 

0.596484 

1 

3 

0 

-0.12675 

3 

10 

4 

0.899106 

1 

4 

4 

-1.43943 

4 

6 

5 

0.88461 

1 

6 

0 

1.192723 

5 

7 

6 

0.958464 

1 

5 

1 

-0.89864 

6 


7 

0.014496 

0 

6 

1 

-0.64207 

7 


8 

0.407422 

1 

6 

0 

-1.16122 

8 


9 

0.863247 

0 

3 

0 

0.47886 

9 


10 

0.138585 

1 

5 

3 

0.832001 

10 


11 

0.245033 

1 


1 

1.001472 



12 

0.045473 

0 


0 

0.61513 



13 

0.03238 

0 


2 

1.896733 



14 

0.164129 

1 


3 

-1.25248 



15 

0.219611 

0 


1 

1.308572 



16 

0.01709 



2 

-1,28498 



17 

0.285043 



1 

0.357816 



18 

0.343089 



0 

-0.1679 



19 

0.553636 



2 

1.580393 



20 

0.357372 



1 

0.994548 




jmnTTíTT^B_ 

1 . Vejamos o significado da expressão X mod m, na qual X em são inteiros não-negativos. O 
resultado de tal operação é o resto da divisão de X por m. Ou seja, s ex-mq+r, então X 
mod m=-zr. Por exemplo, 13 mod 4 = 1. 

Encontre 18 mod 5 e 360 mod 100. 

2. O método congruencial. No chamado método congruênciaI multiplicativo de gerar NPA, come¬ 
çamos com um valor inicial n g/ chamado semente, e geramos sucessivos valores n v n 2 , ... 
por meio da relação 
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n i+1 = an i mod m, 

sendo n g/ a, m inteiros não-negativos ei = 0,1, 2 ,m - 1. A constante a é o multiplicador 
em éo módulo. Por meio da fórmula acima no máximo m números diferentes são gerados, 
a saber, 0, 1, m - 1. Se h =£ m for o valor de / correspondente ao número máximo de 
pontos gerados, a partir do qual os valores se repetem, então h é chamado o ciclo ou o 
período do gerador. Os NPA são obtidos por meio de 

u f =n j /m, i =0,1,..., m- 1. 

Tomemos, por exemplo, a semente n g -17,a-7em- 100. E fácil ver que obtemos o 
seguinte: 


/ 

0 

1 

2 

3 

4 


n, 

17 

19 

33 

31 

17 



Temos, então, que o ciclo é h - 4, e os valores n j vão se repetir a partir daí. Os correspon¬ 
dentes NPA gerados serão 


0,17; 0,19; 0,33; 0,31; 0,17; ... 

Devemos escolher a e m de modo a obter ciclos grandes, ou seja, geramos muitos NPA 
antes que eles comecem a se repetir. A seleção de m é normalmente determinada pelo 
número de "bits" das palavras do computador usado. Atualmente, tomamos por exemplo 
m =2 64 . Para o valora a sugestão étomar uma potência grande de um número primo, por 
exemplo, a =7 5 . 

O método congruênciaI misto usa a fórmula 

n j+1 =an i + b mod m. 

3. Considere a semente n g - 13, o multiplicador a = 5 e o módulo m - 100, para gerar dez 
números pseudo-aleatórios. Qual o período h nesse caso? 

4. Idei n, para n g = 19, a - 13 e m - 100. 

5. Use algum programa ou planilha computacional para gerar 10.000 números pseudo- 
aleatórios. Faça um histograma e um boxplot desses valores. Esses gráficos corroboram o 
fato de que esses números obtidos são observações de uma v.a. com distribuição uniforme 
no intervalo (0, 1)? Explique. 

9.2 Simulação de Variáveis Aleatórias 

De posse de um bom gerador de NA podemos, em princípio, gerar NA de qualquer 
outra v.a., usando a correspondente função de distribuição acumulada (f.d.a.). Como 
ilustração, vamos supor uma v.a. contínua X, com f.d.a. F(x) mostrada na Figura 9.3. 
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Figura 9.3: f.d.a. de uma v.a. contínua X. 


F(x) 



O 


x 


X 


Usando-se um gerador de NA, produz-se um NA u; marca-se esse valor no eixo 
das ordenadas de F(x); por meio da função inversa de F(x) obtém-se o valor x da v.a. 
X no eixo das abcissas. Isto é, resolve-se a seguinte equação 


F(x) = u, 


(9.1) 


ou seja, x = F _1 (u). Observe a figura para melhor entendimento. 

Na realidade, o procedimento ilustrado acima pode ser formalizado no seguin¬ 
te resultado, chamado de método da transformação integral. Suponha F estrita¬ 
mente crescente. 

Teorema 9.1 Se X for uma v.a. com f.d.a. F, então a v.a. U = F(X) tem distribuição 
uniforme no intervalo [0, 1], 

Prova Como F é estritamente crescente e u = F(x), então x = F _1 (u), pois existe a 
inversa de X. SeG(u) é a f.d.a. de U , temos 


G(u) = P(U « u) =P(F(X) ss u) = P(X *£ F-Hu)) =F(F-Hu )) =u, 


o que demonstra o teorema. 

Exemplo 9.6, Considere a v.a. com densidade f(x) = 2x, 0 < x < 1. Temos, 



Na Figura 9.4 temos os gráficos de f(x) e F(x). 
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Figura 9.4: F.d.p. e f.d.a. da v.a. X do Exemplo 9.6. 


f(x) 

2 

F(x) 

1 



C 

II 

O 



y \ 

0 

X ' 

O 

x = 0,71 1 X 


Então, a equação (9.1) fica u =x 2 . Para obter um valor deX basta gerar um NA u e 
depois gerar x = Vü . Como 0 < x < 1, deve-se tomar a raiz quadrada positiva de u. Por 
exemplo, se u = 0,5, então F(x) = 0,5 e portanto x = VÕ)5 = 0,71, que é um valor 
(número aleatório) gerado da v.a. X. 

Para simular dados de uma v.a. discreta, o segredo está em fazer uma pequena modifica¬ 
ção no gráfico da f.d.a. Considere uma v.a. com a seguinte distribuição de probabilidades: 


X 

Xi 

X 2 


X„ 

Pi 

Pl 

Pl 


Pr, 


A f.d.a dessa v.a. é dada por 


0, 


F(xH 


P V 

P,+P 2 : 


se x < x 1 
sex 1 ^x<x 2 
se x 2 s£ x < x 3 


1, sexs=x n . 


Os gráficos correspondentes estão na Figura 9.5. 


Figura 9.5: F.p. e f.d.a. de uma v.a. discreta. 
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Para usar o procedimento anterior basta alterar o gráfico de F(x) acima, do modo 
apresentado na Figura 9.6. 


Figura 9.6: F.d.a. "modificada" para a v.a. discreta X. 



Como antes, geramos um NA u entre 0 e 1 e o marcamos no eixo das ordenadas; 
procura-se o inverso de u no eixo das abcissas. Suponha que u esteja entre p 1 + p 2 + ... 
+ p j e p : + p 2 + ... + p + p . Segundo a Figura 9.6, vemos que então obteremos o 
valor x. da v.a. X. 

A descrição acima pode ser resumida no seguinte procedimento: gera-se um NA u, 
ou seja, um valor de uma v.a. U uniforme no intervalo [0, 1], Coloque: 


X = 


x v seu<p i; 

x 2 , se p 1 *£ u < p 1 + p 2 , 


[x., sep 1 + ...+p j . 1 «u<p 1 + ...+p r 


(9.2) 


Exemplo 9.7 Consideremos a v.a. X com distribuição 


X 

0 

1 

2 

Pi 

1/4 

1/2 

1/4 


Suponha que ao gerar um NA obtemos u = 0,3. Então, como p 2 =s u < p l + p 2 , ou 
seja, 0,25 u < 0,75, tomamos o valor gerado deX como sendo x = 1. Para obter uma 
amostra de n valores de X basta gerar n números aleatórios e proceder para cada um 
deles como acima. Note que poderemos obter valores repetidos de X. 

Na seção 9.3 mostraremos como gerar valores de algumas distribuições conhecidas. 
Nem sempre o método apresentado é utilizado, pois há dificuldade em resolver a equa¬ 
ção (9.1). Os pacotes estatísticos (como o M initab e SPIus) e as planilhas eletrônicas 
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(como a do Excel) possuem sub-rotinas próprias para simular valores para vários modelos 
de v.a.'s, tanto discretas como contínuas. Na seção 9.4 apresentaremos exemplos de uso de 
tais programas. 


6. Gere cinco valores da v.a. X, cuja distribuição é dada por: 


X 

0 

1 

2 

3 

4 

Pi 

0,1 

0,2 

0,4 

0,2 

0,1 


Use a Tabela VII para gerar os NA. 

7. Gere dez valores da v.a T do Problema 17 do Capítulo 6. 

8. Considere a v.a. X contínua com f.d.p. 

f(x) = I 3x2 ' se -1 X « 0 
[O, caso contrário. 

Como você procederia para obter um valor simulado deX? Se u =0,5, qual será o valor 
correspondente gerado de X? 

9.3 Simulação de Alguns Modelos 

Utilizando o que foi estudado nas seções anteriores, vejamos como podemos si¬ 
mular valores de alguns modelos que já consideramos anteriormente. 

Exemplo 9.8. Simulação de uma distribuição de Bernouiii. 

Suponha queX tenha uma distribuição de Bernouiii, com P(X = 0) = 1 - p = 0,48 e 
P(X = 1) = p = 0,52. Para gerar valores de tal distribuição basta gerar NA u e concluir: 
Se u < 0,48, coloque X = 0; 

Se u ^ 0,48, coloque X = 1. 

Por exemplo, suponha que geramos dez NA: 0,11; 0,82; 0,00; 0,43; 0,56; 0,60; 
0,72; 0,42; 0,08; 0,53. Então, os dez valores gerados da distribuição em questão são 0, 
1, 0, 0, 1, 1, 1, 0, 0, 1, respectivamente. 

Exemplo 9.9. Simulação de uma distribuição binomial. 

Sabemos que seY ~ b(n, p), então Y é o número de sucessos num experimento de 
Bernouiii, com n repetições e probabilidades de sucesso p. Mas P(sucesso) = P(Y = 1) 
= p. No Exemplo 9.8 obtivemos cinco sucessos, logo Y = 5. Portanto, se Y ~ b(10; 
0,52), e queremos, digamos, gerar 20 valores dessa distribuição, basta considerar 20 
experimentos de Bernouiii, sendo que em cada um deles repetimos o experimento n = 
10 vezes, com probabilidade de sucesso p = 0,52. Para cada experimento j considera¬ 
mos o número de sucessos (número de 1), y, j = 1, 2, ..., 20. Obteremos, então, os 20 
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valores simulados y v ..., y 20 da v.a. Y. Observe que esses valores serão inteiros entre 0 
e 20, inclusive esses dois últimos. 

Exemplo 9.10 Simulação de uma distribuição exponencial. 

Se a v.a. T tiver densidade dada por 

f(t) = lip e-w, t > 0, 

a sua f.d.a. é dada por 

F(t) = 1 - e-w, 

logo, temos de resolver a equação (9.1) para gerar t. 

Tomando logaritmo na base e, temos 

1 - u = e-w o log (1 - u) = -tip o t = -/3 log (1 - u ). 

Logo, gerado um NA, um valor da distribuição Exp(y3) é dado por -p log (1 - u). 
Por exemplo, suponha p = 2 e queremos gerar cinco valores de T ~ Exp(2). Gerados 
os valores t/ 1 = 0,57, u 2 = 0,19, u 3 = 0,38, u 4 = 0,33, u 5 = 0,31 de uma distribuição uniforme 
em [0, 1] (os números aleatórios), obteremos p = (-2)(log(0,43)) = 1,68, t 2 = (-2)(log(81)) 
= 0,42, t 3 = (-2)(log(0,62)) = 0,96, t 4 = (-2)(log(0,67)) = 0,80, t 5 = (-2)(log(0,69)) = 0,74. 

Podemos reduzir um pouco os cálculos se usarmos o seguinte fato: se U ~ (7(0,1), então 
1 - U ~ (7(0, 1). Resulta que poderemos gerar os valores de uma exponencial por meio de 

t = -p log (u). 

Usando essa fórmula para os valores de U acima, obteremos os seguintes valores 
de T : 1,12; 3,32; 1,93; 0,96; 2,34. 

Exemplo 9.11, Simulação de uma distribuição normal. 

Há vários métodos para gerar v.a. normais, mas uma observação importante é que 
basta gerar uma v.a. normal padrão, pois qualquer outra pode ser obtida desta. De fato, 
gerado um valor z x da v.a. Z ~ l\l(0, 1), para gerar um valor de uma v.a. X ~ N(pi, o 2 ) 
basta usar a transformação z = (x - jj)to para obter 

x 1 =/a + (7Z 1 . (9.5) 

Vamos dar um exemplo usando a transformação integral e uma tabela de probabi¬ 
lidades para a normal padrão. Suponha que X ~ A/(10; 0,16), ou seja, pi = 10 e o = 0,4. 
Temos de resolver a equação (9.1), ou seja, 

o(z) = u, 

onde estamos usando a notação o(z) para a f.d.a. da N(0, 1). Vamos gerar, primeira¬ 
mente, um NA u, usando a Tabela VII. Tomando as três primeiras colunas e o canto 
inferior esquerdo, obtemos u = 0,230. Então temos de resolver 


(9.3) 

(9.4) 
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O(z) = 0,230, 

ou seja, temos de encontrar o valor z tal que a área à sua esquerda, sob a curva normal 
padrão, seja 0,230. Veja a Figura 9.7. 


Figura 9.7: Geração de um valor Z — /V (0, l). 



Consultando uma tabela para a normal, encontramos que z = -0,74. Logo, o valor 
gerado da normal em questão satisfaz 

x ~ 10 =-0,74, 

0,4 

ou seja, x = 10 + (0,4)(-0,74) = 9,704. Qualquer outro valor pode ser gerado da 
mesma forma. 

Esse método, embora simples, não é prático, sob o ponto de vista computacional. 
Há outros métodos mais eficientes. Alguns são variantes do método de Box-Müller 
(1958). Nesse método são geradas duas v.a. Z l e Z 2 , independentes, e A/(0, 1), por meio 
das transformações 


Z l =V-2 logL/ : cos(2tií/ 2 ), 
Z 2 =V-2 logíV j sen(27zt/ 2 ). 


(9.6) 


onde U 1 e U 2 são v.a. com distribuição uniforme em [0, 1], Portanto, basta gerar dois 
NA Uj e u 2 e depois gerar z x e z 2 usando (9.6). Veja também o Problema 22. 


■ jT^nrrriTT^H_ 

9. Gere dez valores de uma distribuição de Bernoulli, com p = 0,35. 

10. Obtenha dez valores de uma v.a. Y ~ b( 10; 0,2). 

11. Usando o procedimento do Exemplo 9.10, gere dez valores de uma distribuição exponencial 
com parâmetro p = 1/2. 

12. Usando o Teorema 9.1, gere: 

(a) cinco valores da v.a. do Exemplo 9.6; 

(b) dez valores de uma distribuição N (10; 4); 

(c) dez valores de uma distribuição t de Student com 24 graus de liberdade. 
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13. Simulação de uma distribuição qui-quadrado. Como sabemos, se Z ~ A/(0, 1) e Y -Z 2 , 
então Y ~ Z 2 (l). Por outro lado, uma v.a. 1/1/ com distribuição Z 2 (n) pode ser escrita como 

1/1/ =Z 2 +Z 2 + ...+Z 2 , 

onde as v.a. Z y ..., Z n são normais padrões, independentes. 

Portanto, para simular um valor de uma v.a. com distribuição qui-quadrado, com n graus de 
liberdade, basta gerar n valores de uma v.a. A/(0,1) e considerar a soma de seus quadrados. 

14. Gere dez valores de uma distribuição qui-quadrado com três graus de liberdade. 

9.4 Exemplos Computacionais 

Nesta seção vamos apresentar alguns exemplos de simulação de v.a.'s usando os 
pacotes M initab, SPIus e Excel. As tabelas 9.1 e 9.2 trazem as distribuições discretas e 
contínuas, respectivamente, contempladas por cada um e os comandos apropriados, 
quando pertinentes. 


Tabela 9.1: Opções de Distribuições Discretas. 


Distribuição 

Excel (Par.) 

Minitab (Par.) 

SPIus (Par.) 

Bernoulli 

Bernoulli (p) 

Bernoulli (p) 

- 

Binomial 

Binomial (n, p) 

Binomial (n, p) 

binom (n,p) 

Geométrica 

- 

- 

geom (p) 

Hipergeométrica 

- 

- 

hyper (N ,r,k) 

Poisson 

Poisson (X) 

Poisson (X) 

pois (X) 

Discreta 

Discreta 

- 

- 


Comecemos com v.a.'s discretas. Para gerar uma distribuição de Bernoulli no SPIus 
basta colocar n = 1 no caso binomial. 0 pacote M initab usa o comando Random segui¬ 
do de um dos comandos da tabela. O pacote SPIus coloca a letra r (de "random") antes do 
comando apropriado. A planilha Excel pode tanto usar a função ALEATÓRIO() como 
a opção Geração de número aleatório, dentro de Análise de Dados do menu Ferra¬ 
mentas. Existe uma opção Discreta para gerar uma distribuição discreta especificada 
(x f , p), i = 1, ..., k. Vejamos alguns exemplos. 

Exemplo 9.12. Suponha que queiramos simular 20 valores de uma distribuição binomial, 
com n = 10 e p = 0,6, e 15 valores de uma distribuição de Poisson, com parâmetro X = 
2,4, usando o M initab. Usando os comandos Random, Binomial e Poisson obtemos o 
Quadro 9.4. Os valores simulados são arquivados nas colunas Cl e C2. 
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Quadro 9.4: Simulação da binomial e Poisson. Minitab. 


MTB 

> Random 20 Cl; 

MTB 

> Random 15 C2; 

SUBC 

> Binomial 10 0.6. 

SUBC 

> Poisson 2.4. 


Cl 

C2 


Cl 

C2 

1 

6 

1 

11 

6 

1 

2 

5 

2 

12 

7 

1 

3 

7 

1 

13 

7 

1 

4 

7 

2 

14 

5 

2 

5 

4 

2 

15 

7 

2 

6 

8 

1 

16 

6 


7 

6 

3 

17 

4 


8 

5 

2 

18 

6 


9 

5 

3 

19 

5 


10 

6 

1 

20 

7 



Exemplo 9.13, Usando o SPIus, mostramos no Quadro 9.5 as saídas correspondentes 
a simular 20 valores de uma v.a. X ~ ò( 10; 0,5) e 20 valores de uma v.a. / ~ 
Poisson (1,7). 


Quadro 9.5: Simulação da binomial e Poisson. SPlus. 

> x <-rbinom(20, 10, 0.5) 

> x 

[lj 647555576 1 8466765567 

> y <-rpois (20, 1.7) 

>y 

[11 12551321223 1 32 1 14230 


Exemplo 9.14. Suponha que queiramos gerar as seguintes distribuições, usando o SPIus: 

(a) X ~ b(10; 0,5); (c) Z ~ Ü(0,1); 

(b) Y ~ Poisson(l,7); (d) B ~ Bern(0,7). 

Os comandos respectivos estão dados no Quadro 9.6. 

Quadro 9.6: Simulação de variáveis. SPlus. 

> x < -rbinom(20, 10, 0.5) 

> y < -rpois (20, 1.7) 

> z < -runif (100, 0, 1) 

> b < -rbinom(15, 1, 0.7) 


Os histogramas respectivos estão na Figura 9.8. 
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Figura 9.8: Histogramas de distribuições simuladas no Exemplo 9.14. SPlus. 




x y 
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z 
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b 


Tabela 9.2: Opções de Distribuições Contínuas. 


Distribuição 

Excel (Par.) 

Minitab (Par.) 

SPlus (Par.) 

Normal 

Normal (0,1 ) 

Normal (/j, o) 

norm [n, a) 

Exponencial 

- 

Exponential (/3) 

exp (j8) 

t (Student) 

- 

T (v) 

t (v) 

F (Snedecor) 

- 

F (v,, v 2 ) 

f (v,, V 2 ) 

Gama 

- 

Gamma (a, P) 

gamma (a, P) 

Qui-Quadrado 

- 

Chisquare (v) 

chisq (v) 

beta 

- 

Beta(a, fi) 

beta [a, p) 


Vejamos, agora, alguns exemplos para v.a.'s contínuas. 


Exemplo 9.15. Usando o pacote Minitab, geramos: 

(a) 10 valores de uma A/(0, 1); 

(b) 20 valores de uma Exp(2); 

(c) 15 valores de uma X 2 (5). 

Os comandos e respectivos valores simulados estão mostrados no Quadro 9.7. 
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Quadro 9.7: Simulação de variáveis. Minitab. 



MTB 

> Random 10 Cl; 

MTB 

> 




SUBC 

> Normal 0 1 


MTB 

> Random 15 C3; 


MTB 

> 


SUBC 

> Chisquare 5. 



MTB 

> Random 20 C2; 

MTB 

> 




SUBC 

> Exponential2. 






Cl 

C2 

C3 


Cl 

C2 

C3 

1 

-0.06636 

2.50204 

4.44339 

11 


0.60892 

0.71995 

2 

0.14940 

1.11469 

2.60994 

12 


0.11405 

6.58849 

3 

-0.08339 

1.83977 

9.25374 

13 


4.10192 

5.52644 

4 

0.09516 

0.47726 

1.10399 

14 


3.87223 

2.86108 

5 

-1.08060 

0.60830 

2.31042 

15 


2.59596 

2.87105 

6 

-0.63088 

1.83693 

6.62708 

16 


0.50944 


7 

0.17171 

2.35880 

9.20627 

17 


1.05514 


8 

-1.78075 

1.31646 

1.52421 

18 


3.91126 


9 

1.89407 

4.19729 

4.88943 

19 


1.98810 


10 

0.21054 

1.81575 

3.90302 

20 


3.82243 



Exemplo 9.16. Usando o pacote SPIus, simulamos: 

(a) 500 valores de uma v.a. Z ~ A/(0,1); 

(b) 200 valores de uma v.a. / ~ A/(10; 0,3 2 ); 

(c) 500 valores de uma v.a. t(35); 

(d) 500 valores de uma v.a. T ~ Exp(2); 

(e) 300 valores de uma v.a. 1/1/ ~ Z 2 (5); 

(f) 500 valores de uma v.a. F(10, 12). 

Os comandos necessários são mostrados no Quadro 9.8 e os respectivos histogramas 
estão na Figura 9.9. 


Quadro 9.8: Simulação de variáveis. SPlus. 


> z<-rnorm (500, 0.1) 

> Exp<-rexp (500, 2) 

> hist(z) 

> hist (Exp) 

> y<-rnorm(200,10, 0.3) 

> w<-rchisq (300, 5) 

> hist (y) 

> hist (w) 

> t<-rt(500, 35) 

> f<-rf (500, 10, 12) 

> hist(t) 

> hist (f) 
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Figura 9.9: Histogramas de algumas distribuições geradas no Exemplo 9.16. 




Na planilha Excel a normal pode ser gerada por meio da "opção normal" no menu 
"Ferramentas (Análise de Dados (Geração de números aleatórios))" ou pela função 
ALEATÓRIO() e a fórmula = INV. NORM (ALEATÓRIO(), /u, o). 

Exemplo 9.17 A coluna E do Quadro 9.3 traz 20 valores gerados de uma A/(0, 1) 
usando a ferramenta GNA. 

























252 


CAPÍTULO 9 — NOÇÕES DE SIMULAÇÃO 


JTinnTTTTr^B 


15. Usando um pacote de sua preferência, gere: 

(a) 100 valores de uma distribuição binomial, com parâmetros n - 15, p =0,7. 

(b) 500 valores de uma distribuição de Poisson com parâmetro A = 1,3. 

Em cada caso, faça um histograma e veja se este corresponde à distribuição em questão. 

16. Usando um pacote computacional de sua preferência, gere: 

(a) 500 valores de uma normal padrão; 

(b) 1.000 valores de uma distribuição qui-quadrado com cinco graus de liberdade; 

(c) 800 valores de uma distribuição exponencial com parâmetro 3. 

Em cada caso, faça um histograma, um ramo-e-folhas e um boxplof. Comente. 

17. Usando o método de Box-Müller, gere cinco valores de uma distribuição normal padrão. 


9.5 Problemas e Complementos 

18. O método dos quadrados centrais de von Neumann opera do modo descrito a seguir. 
Considere um inteiro n 0 com m dígitos e seu quadrado rtg, que terá 2 m dígitos (eventual¬ 
mente acrescentando zeros à esquerda). Tome os dígitos centrais de n^e divida o número 
obtido por 10 m para se obter um NA, u 0 , entre 0 e 1. Continue, tomando n 1 como o 
número inteiro central desse passo. 

Esse método pode não funcionar bem, como o exemplo abaixo de Kleijnen e van 
Groenendaal (1994) mostra. 

Suponha m = 2 e considere n 0 = 23. Então, 17$ = 0529, e o primeiro NA é U 0 = 0,52. 
Agora, n 1 = 52, nj = 2704 e 14 = 0,70. Sucessivamente, obtemos U 2 = 0,90, u 3 = 0,10, 
U 4 = 0,10 etc. Ou seja, a partir de U 4/ os NA se repetem. 

Obtenha números aleatórios, com m - 3, usando esse método. 

19. Uma distribuição binomial de parâmetros n e p pode ser simulada também do seguinte 
modo. Considere a recursão 


com p t -P(X =j),j =0,1 . n. 

Chame j o valor atual, pr -P(X =/), F -F(j) =P[X « j) e o algoritmo: 
Passo 1. Gere o NA U; 

Passo2. r =p/(l - p),j = 0, pr = (1 - p)\ F =pr; 

Passo 3. Se U < F, coloque X =j; 

Passo4. pr = ^ pr, F =F +pr,j =j + 1. 

i + 1 

Passo 5. Volte ao passo 3. 

Usando esse algoritmo, gere cinco valores da v.a. X ~ b( 5; 0,3). 
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20. Simulação de uma distribuição de Poisson. Se N ~ P(A), então P (N =j) = p^ é dada por 

P(N =j)=^-,j=0, 1,... (9.7) 

A geração de valores de uma distribuição de Poisson parte da seguinte relação recursiva, 
que pode serfacilmente verificada: 


Pj + i = 


J^p., 

I + 1 


i> o. 


(9.8) 


Seja, também, F(j) -P(N í j) a função de distribuição acumulada (f.d.a.) de N . Consi¬ 
dere j o valor atual gerado e queremos gerar o valor seguinte. Chamemos simplesmente 
p =p. e F =F(j). Então o algoritmo para se gerar os sucessivos valores é o seguinte: 

Passo 1. Gere o NA U; 

Passo 2. Faça j - 0, p = e~ A e F = p; 

Passo 3. Se U < F , coloque N =/; 

A 

Passo 4. Faça p = - p, F = F +p ej - j + 1; 

i + 1 

Passo 5. Volte ao Passo 3. 

Note que, no Passo 2, se j =0, P(N =0) =p 0 = e~ À e F (0) -P(N «0) -p Q . 

21 . Usando o procedimento recursivo do Problema 20, gere cinco valores de uma v.a. com 
distribuição de Poisson de parâmetro A = 2. 

22. Transformação de Box-Müller. Considere as v.a. X e Y, independentes e ambas A/(0, 1). 
Observando a Figura 9.10, vemos quefi 2 =X 2 +y 2 etg0 = Y/X. A densidade conjunta de 
X e Y é 


f(x,y) = Xe-l* 2 ^ 2 . 
In 


Figura 9.10: Transformação de variáveis (x, y) ->■ (R, 6). 



Considere a transformação de variáveis 


r =x 2 +y 2 
0 = arctg(y/x). 
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A densidade conjunta der e 9é obtida usando o resultado (8.28). Temos quex = Vr COS0, y 
= V7sen#e o Jacobiano da transformação é |J | =1/2. Segue-se que a densidade de r eOê 

f(r, 9) - l/2n ■ e~ r2 ■ 1/2, 0 < r < °°, 0 < 9 < 2n. 

Dessa relação podemos concluir que r -R 2 e 9 são independentes, com 

R 2 ~ Exp(2), 1/(0, 2n). 

Portanto, podemos escrever que 

X =Rcos9 = ^l-2\ogU 1 cos(27dJ 2 ) 

Y = Rsen9-d -2log U 2 ) 

Aqui, usamos o fato de que, se R 2 ~ Exp(2), gerado um NAU 1( vem que - 21 og U 1 ~ Exp(2) 
e se 9~ ü( 0, 2tt), então gerado um NA U 2 , vem que 27ÜJ 2 ~ ü(0, 2n). 

23. Usando um aplicativo estatístico, gere: 

(a) 100 valores de uma N(5; 0,9) e faça o histograma dos valores gerados. 

(b) 200 valores de uma Exp( 1/2) e faça o histograma dos valores gerados. 

(c) 500 valores de uma Gama(a, p), com a = p = 2, e faça o histograma. 

(d) 300 valores de uma X 2 (32) e faça o histograma. 

Os histogramas que você obteve estão de acordo com as definições dadas dessas distri¬ 
buições? Comente. 

24. Usando um pacote, gere: 

(a) 300 valores de uma distribuição t(120). 

(b) 500 valores de uma distribuição F(56, 38). 

(c) 300 valores de uma distribuição 8(20, 30). 

Faça um histograma dos valores simulados em cada caso e responda a mesma pergunta 
do problema anterior. 

25. Simulação de uma distribuição gama. Pode-se demonstrar, usando resultados não estuda¬ 
dos neste livro, que se a v.a. X ~ Gama(r, (d), com r inteiro, entãoX -Y 1 +Y 2 +... + Y r , onde 
cada Y i ~ Exp(/3) e as v.a. Y t são independentes. Logo, para gerar um valor de uma 
distribuição Gama(r, /3), com r > 0, inteiro, basta gerar r valores de uma distribuição 
exponencial de parâmetro pe depois somá-los. 

26. Simule cinco valores de uma distribuição Gama (3, 1/2), usando o procedimento des¬ 
crito no problema anterior. 

27. Simulação de várias variáveis. E mais complicado simular distribuições bidimensionais. 
No caso de X e V serem independentes, então 

f(x,y) =f x (x)f Y (y), Vx,y, 

se elas forem contínuas, por exemplo. Logo, para gerar um valor (x, y) da densidade 
conjunta f(x, y), basta gerar o componente X da distribuição marginal de X e a compo¬ 
nente y da distribuição marginal de Y, independentemente. 

No caso de v.a. dependentes, temos que vale a relação: 

f(x,y) =f x (x)f YiX (y\x). 
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Logo, por essa relação, primeiramente geramos um valorx da distribuição marginal deX e 
fixado esse valor, x 0 , digamos, geramos um valor da distribuição condicional de X, dado 
que X = x 0 . Isso implica que devemos saber como gerar valores das distribuições f x (x) 
e f nx (y|x). 

Vamos nos limitar a dar dois exemplos no caso de v.a. independentes. 


Exemplo 9.18, Distribuição uniforme bidimensional. 

Na seção 9.1 vimos que para calcular a área da figura F contida no quadrado Q de 
lado unitário (Figura 9.1), considerávamos o quociente N'/N. Como geramos, naquele 
exemplo, os N pontos uniformemente distribuídos sobre Q? Pelo que vimos acima, 
basta gerar valores de v.a. U 1 ~ 1/(0, 1) e U 2 ~ U(0, 1), independentemente. Então, 

P((U V U 2 ) g F) = área(F ). 

Ou seja, a v.a. (U i, Ui) é uniformemente distribuída em Q. 

No caso da Figura 9.1, consideramos 200 valores gerados para U 1 e U 2 , de modo 
que a área (F ) = 24/100. 

Exemplo 9.19, Distribuição normal bidimensional. 

O método de Box-Müller gera valores de duas normais padrões independentes, 

Z 1 e Z 2 . Logo, se quisermos gerar valores da distribuição conjunta de X e /, indepen¬ 
dentes e normais, com X ~ N(/j x , <j x 2 ) ef ~ N(ju y ~ <7 y 2 ), basta considerarmos 

X=ji x + o x Z 1 , Y =çi y + <J, : jZ 2 . 

Na Figura 9.11 temos as curvas de níveis e o gráfico bidimensional obtidos 
gerando-se 10.000 valores cada uma de duas normais padrões independentes. 


Figura 9.11 Distribuição normal padrão bidimensional gerada. 



28. Usando um pacote computacional, gere: 

(o) 1.000 valores de uma distribuição uniforme bidimensional no quadrado de lado 
unitário, supondo os componentes independentes; 
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(b) 1.000 valores de uma normal bi-dimensional (X, Y), com X e Y independentes, 
X -A/dO, 4) e Y ~ A/(15, 9). 

29. Um time de futebol irá disputar 10 partidas num torneio de classificação. 

(a) Supondo que sua chance de vitória em cada jogo é de 60%, simule sua possível 
campanha. 

(b) Simule agora se é esperado o seguinte desempenho em cada jogo: 50% de vitória, 
30% de empate e 20% de derrota. 

(c) Para a situação descrita em (b), simule 12 possíveis campanhas para o time, e 
estude a variável X = número de pontos obtidos (vitória = 3, empate = 1 e derrota 
= 0 ). 

(d) Proponha outros parâmetros para o time e repita a questão (c). 

30. Suponha que uma moeda é viciada, de tal sorte que favoreça mais cara do que coroa. 
Para estimar a probabilidade de cara, você a pode lançar, digamos, 50 vezes. 

(a) Para simular um possível resultado do seu experimento, o que é que seria necessário? 

(b) Supondo que a probabilidade de ocorrer cara é p = 0,6, qual seria a sua simulação 
e sua estimativa de p? 

(c) Faça a simulação para 4 outras pessoas e dê suas respectivas estimativas. Alguém 
acertou o verdadeiro parâmetro? 

31. Em uma população 20% das pessoas compram o produto C. Seleciona-se, com reposi¬ 
ção, indivíduos dessa população até encontrar um comprador de C. A variável X indica 
o número de indivíduos entrevistados. Qual a distribuição simulada de X? 

32. Uma pesquisa domiciliar irá entrevistar todos os moradores do domicílio e a distribuição 
do número de moradores por domicílio encontra-se abaixo. Será usada uma amostra de 
5 domicílios: 


N 2 de moradores 

Porcentagem 

1 

5 

2 

12 

3 

20 

4 

23 

5 

18 

6 

10 

7 

8 

8 

4 


(a) Simule 100 amostras de tamanho 5. 

(b) Considere X = n- médio de pessoas por amostra. Qual a distribuição de freqüência 
empírica deX? 

(c) Construa a distribuição de X = n- médio de pessoas por amostra. 

(d) Encontre para a população o valor p = n 2 médio de pessoas, e construa a distribui¬ 
ção empírica de X - p. Como pode ser interpretada essa distribuição? 

(e) Se o entrevistador recebe 2 u.m. por pessoa entrevistada, usando o resultado (b), 
qual a probabilidade de uma amostra custar mais de 12 u.m.? 
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33. A altura X das pessoas segue aproximadamente uma curva normal com média fi e 

variância a 2 . 

(a) Proponha dois valores realísticos para fie < 7, e gere 10 alturas de uma população de 
homens. Calcule a média e o desvio padrão desta população. 

(b) Com os mesmos parâmetros gere uma outra amostra de 10 alturas. Olhando e ana¬ 
lisando as duas amostras elas parecem vir de populações distintas? 

(c) Gere uma amostra de 10 alturas de uma população feminina. Compare com a 
amostra obtida em (a), e diga se é possível afirmar que as duas amostras vêm de 
populações distintas. 

(d) Como você acha que os parâmetros influenciam para diferenciar bem as amostras? 
Dê exemplos. 
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Introdução à Inferência 
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Estatística 


10.1 Introdução 

Vimos, na Parte 1, como resumir descritivamente variáveis associadas a um ou mais 
conjuntos de dados. Na Parte 2, construímos modelos teóricos (probabilísticos), identifica¬ 
dos por parâmetros, capazes de representar adequadamente o comportamento de algumas 
variáveis. Nesta terceira parte apresentaremos os argumentos estatísticos para fazer afirma¬ 
ções sobre as características de uma população, com base em informações dadas por amostras. 

0 uso de informações de uma amostra para concluir sobre o todo faz parte da atividade 
diária da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato 
que ela está preparando tem ou não a quantidade adequada de sal. Ou, ainda, quando 
um comprador, após experimentar um pedaço de laranja numa banca de feira, decide se 
vai comprar ou não as laranjas. Essas são decisões baseadas em procedimentos amostrais. 

Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a 
esses princípios intuitivos do dia-a-dia para que possam ser utilizados cientificamente 
em situações mais complexas. 

10.2 População e Amostra 

Nos capítulos anteriores, tomamos conhecimento de alguns modelos probabilísticos 
que procuram medir a variabilidade de fenômenos casuais de acordo com suas ocor¬ 
rências: as distribuições de probabilidades de variáveis aleatórias (qualitativas ou quan¬ 
titativas). Na prática, freqüentemente o pesquisador tem alguma idéia sobre a forma da 
distribuição, mas não dos valores exatos dos parâmetros que a especificam. 

Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adul¬ 
tos possa ser representada por um modelo normal (embora as alturas não possam assumir 
valores negativos). Mas essa afirmação não é suficiente para determinar qual a distribuição 
normal correspondente; precisaríamos conhecer os parâmetros (média e variância) des¬ 
sa normal para que ela ficasse completamente especificada. 0 propósito do pesquisador 
seria, então, descobrir (estimar) os parâmetros da distribuição para sua posterior utilização. 
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Se pudéssemos medir as alturas de todos os brasileiros adultos, teríamos meios 
de obter sua distribuição exata e, daí, produzir os correspondentes parâmetros. Mas 
nessa situação não teríamos necessidade de usar a inferência estatística! 

Raramente se consegue obter a distribuição exata de alguma variável, ou porque 
isso é muito dispendioso, ou muito demorado ou às vezes porque consiste num pro¬ 
cesso destrutivo. Por exemplo, se estivéssemos observando a durabilidade de lâmpa¬ 
das e testássemos todas até queimarem, não restaria nenhuma para ser vendida. Assim, 
a solução é selecionar parte dos elementos (amostra), analisá-la e inferir propriedades 
para o todo (população). 

Outras vezes estamos interessados em explorar relações entre variáveis envolven¬ 
do experimentos mais complexos, para a obtenção dos dados. Por exemplo, gostaría¬ 
mos de obter resposta para a seguinte indagação: a altura que um produto é colocado 
na gôndola de um supermercado afeta a sua venda? Observe que para responder a 
questão precisamos obter dados de vendas com o produto oferecido em diferentes 
alturas, e que essas vendas sejam controladas para evitar interferências de outros fato¬ 
res que não a altura. Nesse caso não existe claramente um conjunto de todos os ele¬ 
mentos para os quais pudéssemos encontrar os parâmetros populacionais. Recorrer a 
modelos para descrever o todo (população) facilita a identificação e solução do pro¬ 
blema. Nesse exemplo, supondo que as vendas V h do produto oferecido na altura h (h = 1 
representando baixo, h = 2 representando meio e h = 3 representando alto ) segue uma 
distribuição próxima a normal, ou seja, V h ~ N(/u h , d 2 ), o nosso problema passa a ser o 
de verificar, por meio de dados coletados do experimento (amostra), se existe evidên¬ 
cia de igualdade das médias Hv çi 2 e /i 3 . Note que, em nossa formulação do problema, 
supusemos que as três situações de alturas resultam observações com a mesma variância 
o 2 . Essa suposição poderia ser modificada. 

Soluções de questões como as apresentadas acima são o objeto da inferência estatística. 

Dois conceitos básicos são, portanto, necessários para o desenvolvimento da 
Inferência Estatística: população e amostra. 

Definição População é o conjunto de todos os elementos ou resultados sob investiga¬ 
ção. Amostra é qualquer subconjunto da população. 

Vejamos outros exemplos para melhor entender essas definições. 

Exemplo 10.1, Consideremos uma pesquisa para estudar os salários dos 500 funcio¬ 
nários da Companhia MB. Seleciona-se uma amostra de 36 indivíduos, e anotam-se 
os seus salários. A variável aleatória a ser observada é "salário”. A população é 
formada pelos 500 funcionários da companhia. A amostra é constituída pelos 36 
indivíduos selecionados. Na realidade, estamos interessados nos salários, portanto, 
para sermos mais precisos, devemos considerar como a população os 500 salários 
correspondentes aos 500 funcionários. Conseqüentemente, a amostra será formada 
pelos 36 salários dos indivíduos selecionados. Podemos estudar a distribuição dos 
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salários na amostra, e esperamos que esta reflita a distribuição de todos os salários, 
desde que a amostra tenha sido escolhida com cuidado. 

Exemplo 10.2. Queremos estudar a proporção de indivíduos na cidade A que são 
favoráveis a certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a 
opinião de cada uma é registrada como sendo a favor ou contra o projeto. A população 
consiste de todos os moradores da cidade, e a amostra é formada pelas 200 pessoas 
selecionadas. Podemos, como foi visto no Capítulo 5, definir a variável X, que toma o 
valor 1, se a resposta de um morador for favorável, e o valor 0, se a resposta for 
contrária ao projeto. Assim, nossa população pode ser reduzida à distribuição de X, e 
a amostra será constituída de uma seqüência de 200 zeros e uns. 

Exemplo 10.3. O interesse é investigar a duração de vida de um novo tipo de lâmpada, 
pois acreditamos que ela tenha uma duração maior do que as fabricadas atualmente. 
Então, 100 lâmpadas do novo tipo são deixadas acesas até queimarem. A duração em 
horas de cada lâmpada é registrada. Aqui, a variável é a duração em horas de cada 
lâmpada. A população é formada por todas as lâmpadas fabricadas ou que venham a ser 
fabricadas por essa empresa, com o mesmo processo. A amostra é formada pelas 100 
lâmpadas selecionadas. Note-se que nesse caso não podemos observar a população, ou 
seja, a distribuição da duração de vida das lâmpadas na população, pois isso corresponderia 
a queimar todas as lâmpadas. Assim, em alguns casos, não podemos observar a popula¬ 
ção toda, pois isso significaria danificar (ou destruir) todos os elementos da população. 
Esse problema geralmente é contornado atribuindo-se um modelo teórico para a distri¬ 
buição da variável populacional. 

Exemplo 10.4. Em alguns casos, fazemos suposições mais precisas sobre a população 
(ou sobre a variável definida para os elementos da população). Digamos que X represen¬ 
te o peso real de pacotes de café, enchidos automaticamente por uma máquina. Sabe-se 
que a distribuição de X pode ser representada por uma normal, com parâmetros /j. e a 2 
desconhecidos. Sorteamos 100 pacotes e medimos seus pesos. A população será o con¬ 
junto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina, e que 
pode ser suposta como normal. A amostra será formada pelas 100 medidas obtidas dos 
pacotes selecionados, que pode ser pensada como constituída de 100 observações feitas 
de uma distribuição normal. Veremos mais adiante como tal amostra pode ser obtida. 

Exemplo 10.5. Para investigar a "honestidade" de uma moeda, nós a lançamos 50 vezes 
e contamos o número de caras observadas. A população, como no caso do Exemplo 
10.2, pode ser considerada como tendo a distribuição da variável X, assumindo o valor 
1 , com probabilidade p, se ocorrer cara, e assumindo o valor 0, com probabilidade 1 - p, 
se ocorrer coroa. Ou seja, a população pode ser considerada como tendo distribuição de 
Bernoulli com parâmetro p. A variável ficará completamente especificada quando co¬ 
nhecermos p. A amostra será uma seqüência de 50 números zeros ou uns. 
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Exemplo 10.6. Há razões para supor que o tempo Y de reação a certo estímulo visual depen¬ 
da da idade do indivíduo (esse exemplo será usado nos Capítulos 15 e 16). Suponha, ainda, 
que essa dependência seja linear. Para verificarmos se essa suposição é verdadeira, obtive¬ 
ram-se 20 dados da seguinte maneira: 20 pessoas foram selecionadas, sendo 10 homens e 10 
mulheres. Dentro de cada grupo de homens e mulheres foram selecionadas duas pessoas das 
seguintes faixas de idade: 20, 25, 30, 35 e 40 anos. Cada pessoa foi submetida ao teste e seu 
tempo de reação y foi medido. A população poderia ser considerada como formada por todas 
aquelas pessoas que viessem a ser submetidas ao teste, segundo o sexo e a idade. A amostra 
é formada pelas 20 medidas, que estão apresentadas na Tabela 15.1. 

O bservações: 

(i) Os três últimos exemplos mostram uma ampliação do conceito definido de população, 
ou seja, designamos agora a população como sendo a função probabilidade ou fun¬ 
ção densidade de probabilidade de uma v.a. X, modelando a característica de interesse. 
Esse artifício simplifica substancial mente o problema estatístico, exigindo no entanto 
uma proposta de modelo para a variável X. Nesses casos simplificaremos a lingua¬ 
gem, dizendo: "seja a população f(x)". Por exemplo, "considere a população das 
alturas X ~ N(/u, a 2 )". 

(ii) Essa abordagem, por meio da distribuição de probabilidades, utiliza muitas vezes o 
conceito de população infinita contínua, exigindo um tratamento matemático mais 
cuidadoso. É mais fácil apresentar os problemas e soluções por meio de populações 
finitas. É o que faremos muitas vezes. Entretanto, é importante que o estudante aprenda 
a trabalhar com o conceito de modelo, explorando o caso de "população f(x)". 

10.3 Problemas de Inferência 

Como já dissemos anteriormente, o objetivo da Inferência Estatística é produzir 
afirmações sobre dada característica da população, na qual estamos interessados, a 
partir de informações colhidas de uma parte dessa população. Essa característica na 
população pode ser representada por uma variável aleatória. Se tivéssemos informa¬ 
ção completa sobre a função de probabilidade, no caso discreto, ou sobre a função 
densidade de probabilidade, no caso contínuo, da variável em questão, não teríamos 
necessidade de escolher uma amostra. Toda a informação desejada seria obtida por 
meio da distribuição da variável, usando-se a teoria estudada anteriormente. 

Mas isso raramente acontece. Ou não temos qualquer informação a respeito da 
variável, ou ela é apenas parcial. Podemos admitir, como no exemplo das alturas de 
brasileiros adultos, que ela siga uma distribuição normal, mas desconhecemos os 
parâmetros que a caracterizam (média, variância). Em outros casos, podemos ter uma 
idéia desses parâmetros, mas desconhecemos a forma da curva. Ou ainda, o que é 
muito freqüente, não possuímos informações nem sobre os parâmetros, nem sobre 
a forma da curva. Em todos os casos, o uso de uma amostra nos ajudaria a formar uma 
opinião sobre o comportamento da variável (população). 
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Embora a identificação e a descrição da população sejam fundamentais no proces¬ 
so inferencial, é comum os pesquisadores dedicarem mais atenção em descrever a 
amostra do que a população para a qual serão feitas as afirmações. É imprescindível 
que se explicite claramente a população investigada. 

Neste livro estaremos mais preocupados em trabalhar com populações descritas 
por modelos do que com populações finitas identificadas por elementos portadores de 
uma característica de interesse. Portanto, na maioria das vezes, iremos nos referir à "po¬ 
pulação X", significando que a variável de interesse X, definida sobre a população- 
alvo, segue uma distribuição f(x). Nosso problema de interesse passaria a ser o de 
fazer afirmações sobre a forma da curva e seus parâmetros. 

Alguns exemplos simples nos darão uma noção dos tipos de formulações e proble¬ 
mas que a inferência estatística pode nos ajudar a resolver. 

Exemplo 10.5. (continuação) Voltemos ao exemplo da moeda. Indicando por X o nú¬ 
mero de caras obtidas depois de lançar a moeda 50 vezes, sabemos que, se tomados 
alguns cuidados quando do lançamento, X segue uma distribuição binomial, ou seja, 
X ~ 5(50, p). Esse modelo é válido, admitindo-se ou não a "honestidade" da moeda, isto 
é, sendo ou não p = 1/2. Lançada a moeda, vamos supor que tenham ocorrido 36 caras. 
Esse resultado traz evidência de que a moeda seja "honesta"? Para tomarmos uma 
decisão, podemos partir do princípio de que a moeda não favorece nem cara nem 
coroa, isto é, p = 1/2. Com essa informação e com o modelo binomial, podemos 
encontrar qual a probabilidade de se obterem 36 caras ou mais, e esse resultado nos 
ajudaria a tomar uma decisão. Suponha que a decisão foi rejeitar a "honestidade" da 
moeda: qual é a melhor estimativa para p, baseando-se no resultado observado? 

Descrevemos aí os dois problemas básicos da Inferência Estatística: o primeiro é 
chamado teste de hipóteses, e o segundo, estimação. Nos capítulos seguintes, esses 
problemas serão abordados com mais detalhes. 

Exemplo 10.4. (continuação) Às vezes, o modelo teórico associado ao problema não 
é tão evidente. No caso da máquina de encher pacotes de café automaticamente, diga¬ 
mos que ela esteja regulada para enchê-los segundo uma distribuição normal com 
média 500 gramas e desvio padrão de 100 gramas, isto é, X ~ N (500, 20 2 ). Sabemos 
também que, às vezes, a máquina desregula-se e, quando isso acontece, o único 
parâmetro que se altera é a média, permanecendo a mesma variância. Para manter a 
produção sob controle, iremos colher uma amostra de 100 pacotes e pesá-los. Como 
essa amostra nos ajudará a tomar uma decisão? Parece razoável, nesse caso, usarmos 
a média x da amostra como informação pertinente para uma decisão. Mesmo que a 
máquina esteja regulada, dificilmente x será igual a 500 gramas, dado que os pacotes 
apresentam certa variabilidade no peso. Mas se x não se afastar muito de 500 gramas, 
não existirão razões para suspeitarmos da qualidade do procedimento de produção. Só 
iremos pedir uma revisão se x - 500, em valor absoluto, for "muito grande". 
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0 problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 
gramas. Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido 
um número muito grande de vezes, sob a condição de a máquina estar regulada, tería¬ 
mos idéia do comportamento da v.a. x , e saberíamos dizer se aquele valor observado é 
ou não um evento raro de ocorrer. Caso o seja, é mais fácil suspeitar da regulagem da 
máquina do que do acaso. 

Vemos, então, a importância nesse caso de se conhecer as propriedades da distri¬ 
buição da variável x. 

Exemplo 10.6. (continuação) A descrição matemática da v.a. Y: tempo de reação ao 
estímulo é um pouco mais complexa. Podemos supor que esse tempo, para uma dada 
idade x, seja uma v.a. com distribuição normal, com média dependendo da idade x, ou 
seja, podemos escrever 

Y ~ N(ju(x), a 2 ). 

A linearidade expressa no problema pode ser incluída na média /a(x) da seguinte maneira: 

/a(x) = a + /3x. 

Voltaremos a esse modelo no Capítulo 16. Outra maneira de escrever as duas 
relações anteriores é 

r I x ~N(a + px\ a 2 ). 

Leia-se "Y dado x". 

Podemos, por exemplo, estimar os parâmetros a e /?, baseados na amostra de 
20 dados. Ou podemos querer investigar a possibilidade de /3 ser igual a zero, 
significando que a idade não afeta o tempo de reação. Novamente, os dois princi¬ 
pais problemas de inferência aparecem aqui: estimação e teste de uma hipótese. 
Um outro problema importante em inferência é o de previsão. Por exemplo, consi¬ 
derando um grupo de pessoas de 40 anos, poderemos prever com o modelo acima 
qual será o respectivo tempo de reação. 

Repetir um mesmo experimento muitas vezes, sob as mesmas condições, nem 
sempre é possível, mas em determinadas condições é possível determinar teoricamen¬ 
te o comportamento de algumas medidas feitas na amostra, como por exemplo a mé¬ 
dia. Mas isso depende, em grande parte, do procedimento (plano) adotado para selecio¬ 
nar a amostra. Assim, em problemas envolvendo amostras, antes de tomarmos uma 
decisão, teríamos de responder a quatro perguntas: 

(a) Qual a população a ser amostrada? 

(b) Como obter os dados (a amostra)? 

(c) Que informações pertinentes (estatísticas) serão retiradas da amostra? 

(d) Como se comporta(m) a(s) estatística(s) quando o mesmo procedimento de esco¬ 
lher a amostra é usado numa população conhecida? 

Nas seções e capítulos subseqüentes tentaremos responder a essas perguntas. 
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10.4 Como Selecionar uma Amostra 

As observações contidas em uma amostra são tanto mais informativas sobre a popula¬ 
ção quanto mais conhecimento explícito ou implícito tivermos dessa mesma população. 
Por exemplo, a análise da quantidade de glóbulos brancos obtida de algumas gotas de 
sangue da ponta do dedo de um paciente dará uma idéia geral da quantidade dos glóbulos 
brancos no corpo todo, pois sabe-se que a distribuição dos glóbulos brancos é homogê¬ 
nea, e de qualquer lugar que se tivesse retirado a amostra ela seria "representativa". Mas 
nem sempre a escolha de uma amostra adequada é imediata. Por exemplo, voltando ao 
Exemplo 10.2, para o qual queríamos obter uma amostra de habitantes para saber a opi¬ 
nião sobre um projeto governamental, escolhendo intencional mente uma amostra de 200 
indivíduos moradores de certa região beneficiada pelo projeto, saberemos de antemão 
que o resultado conterá um viés de seleção. Isto é, na amostra, a proporção de pessoas 
favoráveis ao projeto deverá ser maior do que no todo, donde a importância da adoção de 
procedimentos científicos que permitam fazer inferências adequadas sobre a população. 

A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo, 
que esses procedimentos constituem especialidades dentro da Estatística, sendo Amostragem 
e Planejamento de Experimentos as duas mais conhecidas. Poderíamos dividir os procedi¬ 
mentos científicos de obtenção de dados amostrais em três grandes grupos: 

(a) Levantamentos Amostrais, nos quais a amostra é obtida de uma população bem definida, 
por meio de processos bem protocolados e controlados pelo pesquisador. Podemos, ainda, 
subdividi-los em dois subgrupos: levantamentos probabilísticos e não-probabilísticos. O 
primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos 
elementos de uma amostra, atribuindo a cada um deles uma probabilidade, conhecida a 
priori, de pertencer à amostra. No segundo grupo estão os demais procedimentos, tais 
como: amostras intencionais, nas quais os elementos são selecionados com o auxílio de 
especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos medi¬ 
camentos e vacinas. Ambos os procedimentos têm suas vantagens e desvantagens. A 
grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida, 
baseando-se no resultado contido na própria amostra. Tais medidas já são bem mais 
difíceis para os procedimentos do segundo grupo. 

Estão nessa situação os Exemplos 10.1 (conhecer os salários da Cia. MB), 10.2 (identificar 
a proporção de indivíduos favoráveis ao projeto), 10.4 (pesos dos pacotes de café) etc. 

(b ) Planejamento de Experimentos, cujo principal objetivo é o de analisar o efeito de uma 
variável sobre outra. Requer, portanto, interferências do pesquisador sobre o ambiente 
em estudo (população), bem como o controle de fatores externos, com o intuito de 
medir o efeito desejado. Podemos citar como exemplos aquele já citado sobre a altura 
de um produto na gôndola de um supermercado afetar as vendas e o Exemplo 10.6. 
Em ensaios clínicos em medicina, esse tipo de estudo é bastante usado, como por 
exemplo para testar se um novo medicamento é eficaz ou não para curar certa doença. 

(c ) Levantamentos Observacionais : aqui, os dados são coletados sem que o pesquisador 
tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis 
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erros grosseiros. As séries de dados temporais são exemplos típicos desses levanta¬ 
mentos. Por exemplo, queremos prever as vendas de uma empresa em função de ven¬ 
das passadas. O pesquisador não pode selecionar dados, esses são as vendas efetiva¬ 
mente ocorridas. Nesses casos, a especificação de um modelo desempenha um papel 
crucial na ligação entre dados e população. 

No caso de uma série temporal, o modelo subjacente é o de processo estocástíco; pode¬ 
mos pensar que a série efetivamente observada é uma das infinitas possíveis realizações 
desse processo. A população hipotética aqui seria o conjunto de todas essas realizações, e a 
série observada seria a amostra. Veja Morettin eToloi (2006) para mais informações. 

Neste livro iremos nos concentrar principal mente em levantamentos amostrais e, mais 
ainda, num caso simples de amostragem probabilística, a amostragem aleatória simples, 
com reposição, a ser designada por AAS. O leitor poderá consultar Bussab e Bolfarine 
(2005) para obter mais detalhes sobre outros procedimentos amostrais. Um breve resumo 
sobre alguns planos é dado no Problema 37. Noções sobre planejamento de experimentos 
podem ser vistas em Peres e Saldiva (1982). 


1. Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais: 

(a) Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do 
início das atividades das 7h para as 7h30, decidiu-se entrevistar os 30 primeiros ope¬ 
rários que chegassem à fábrica na quarta-feira. 

(b) Mesmo procedimento, só que o objetivo é estimar a altura média dos operários. 

(c) Para estimar a porcentagem média da receita municipal investida em lazer, enviaram- 
se questionários a todas as prefeituras, e a amostra foi formada pelas prefeituras que 
enviaram as respostas. 

(d) Para verificar o fato de oferecer brindes nas vendas de sabão em pó, tomaram-se 
quatro supermercados na zona sul e quatro na zona norte de uma cidade. Nas quatro 
lojas da zona sul, o produto era vendido com brinde, enquanto nas outras quatro era 
vendido sem brinde. No fim do mês, compararam-se as vendas da zona sul com as da 
zona norte. 

2. Refazer o Problema 7 do Capítulo 8. 

10.5 Amostragem Aleatória Simples 

A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amos¬ 
tra probabilística de uma população. Além disso, o conhecimento adquirido com esse 
procedimento servirá de base para o aprendizado e desenvolvimento de outros procedi¬ 
mentos amostrais, planejamento de experimentos, estudos observacionais etc. Comece¬ 
mos introduzindo o conceito de AAS de uma população finita, para a qual temos uma 
listagem de todas as N unidades elementares. Podemos obter uma amostra nessas condi¬ 
ções, escrevendo cada elemento da população num cartão, misturando-os numa urna e 
sorteando tantos cartões quantos desejarmos na amostra. Esse procedimento torna-se 
inviável quando a população é muito grande. Nesse caso, usa-se um processo alternativo, 
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no qual os elementos são numerados e em seguida sorteados por meio de uma tabela de 
números aleatórios (veja a sua utilização em Problemas e Complementos) ou por meio 
do uso de computadores, que podem gerar números aleatórios (veja o Capítulo 9). 

Utilizando-se um procedimento aleatório, sorteia-se um elemento da população, 
sendo que todos os elementos têm a mesma probabilidade de ser selecionados. Repe- 
te-se o procedimento até que sejam sorteadas as n unidades da amostra. 

Podemos ter uma AAS com reposição, se for permitido que uma unidade possa ser 
sorteada mais de uma vez, e sem reposição, se a unidade sorteada for removida da 
população. 

Do ponto de vista da quantidade de informação contida na amostra, amostrar sem 
reposição é mais adequado. Contudo, a amostragem com reposição conduz a um tra¬ 
tamento teórico mais simples, pois ela implica que tenhamos independência entre as 
unidades selecionadas. Essa independência facilita o desenvolvimento das proprieda¬ 
des dos estimadores que serão considerados. 

Portanto, para o restante do livro, o plano amostrai considerado será o de amostragem 
aleatória simples com reposição, que denotaremos simplesmente por AAS. 

Vejamos com algum detalhe o significado mais preciso de uma amostra. 

Exemplo 10.7. Considere o Problema 2 acima, em que colhemos todas as amostras possí¬ 
veis de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. Defina a variável X: valor 
assumido pelo elemento na população. Então, a distribuição de X é dada pela Tabela 10.1. 


Tabela 10.1 : Distribuição da v.a. X para o Problema 2. 


X 

1 

3 

5 

7 

P(X =x) 

1/5 

1/5 

2/5 

1/5 


Indicando por X 1 o número selecionado na primeira extração e por X 2 o número 
selecionado na segunda extração, vimos que era possível escrever a distribuição con¬ 
junta do par (X 1( X 2 ). Veja também a Tabela 10.2. Além disso, as distribuições margi¬ 
nais de Xj e X 2 são independentes e iguais à distribuição de X. Desse modo, cada uma 
das 25 possíveis amostras de tamanho 2 que podemos extrair dessa população 
corresponde a observar uma particular realização da v.a. (X 1; X 2 ), com X 1 e X 2 indepen¬ 
dentes e P(X 1 = x) = P(X 2 = x) = P(X = x), para todo x. Essa é a caracterização de 
amostra casual simples que iremos usar neste livro. 

Definição. Uma amostra aleatória simples de tamanho n de uma variável aleatória X, 
com dada distribuição, é o conjunto de n variáveis aleatórias independentes X v X 2 , ..., X„, 
cada uma com a mesma distribuição de X. 

Ou seja, a amostra será a n-upla ordenada (X 1; X 2 ,..., X„), ondeX, indica a observação 
do /-ésimo elemento sorteado. 
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Quando a população é caracterizada por uma distribuição de probabilidades, o 
modo mais simples para sortear uma AAS é usar os procedimentos de simulação estu¬ 
dados no Capítulo 9. O processo de simular uma observação de uma distribuição 
especificada por seus parâmetros nada mais é do que retirar uma AAS de tamanho um 
da população. Desse modo, para retirar uma AAS (com reposição) de n indivíduos da 
população X, basta gerar n números aleatórios independentes dessa distribuição. 

Exemplo 10.8 Vamos retirar uma AAS de 5 alturas (em cm) de uma população de 
mulheres cujas alturas X seguem a distribuição A/(167; 25). 

Usando-se, por exemplo, o gerador de números aleatórios do Excel, fornecendo 
os parâmetros /u = 167 e o = 5, além do tamanho da amostra n = 5, obtemos os valores: 

Xj = 165, x 2 = 161, x 3 = 168, x 4 = 173, x 5 = 173. 

Note que, se você for gerar uma tal amostra, poderá obter valores diferentes desses. 
Observe, também, que o primeiro elemento a ser observado pode ser qualquer valor da 
população simulada A/(167; 25). Desse modo, indicando por X 1 o valor observado 
na primeira extração, concluímos que X 1 ~ A/(167; 25). Como a geração do segundo 
número aleatório é feita independentemente do segundo, resulta que a v.a. X 2 , valor 
observado na segunda extração, também segue uma distribuição A/(167; 25), e assim 
por diante. 

Diante do exposto, vemos que continua válida a definição de AAS dada acima, 
quando a amostra é retirada de uma população referenciada pela sua distribuição de 
probabilidades. 

No caso de uma população X contínua, com f.d.p. f (x), a f.d.p. conjunta da amos¬ 
tra (X 1; X 2 , ..., X„), segundo o que vimos no Capítulo 8, será dada por 

f(x v x 2 .x„) = f 1 (x 1 )f 2 (x 2 ) ... f„(x„), 

onde f ( (x,) denota a distribuição (marginal) de X„ / = 1, ..., n. 

Antes de prosseguirmos, seria interessante fazer uma comparação da inferência 
estatística com o processo de simulação da população. 

Podemos imaginar que qualquer característica X de interesse seja produzida por 
um "programa" (modelo) de gerador de números aleatórios, e que somente o "pro¬ 
prietário" (natureza) desse programa é que conhece a forma da distribuição de X, os 
valores dos parâmetros etc. relacionados ao programa. Quando "obtemos" a amos¬ 
tra, estamos apenas observando o resultado da simulação, não conhecemos nada do 
processo gerador dos dados. O objetivo da inferência estatística é fornecer critérios 
para nos ajudar a descobrir a forma da distribuição e/ou parâmetros usados pelo 
"proprietário". Bons indicadores desses valores nos ajudam a entender melhor os 
fenômenos e fazer previsões para futuras observações. 
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Daqui para frente, a menos que esteja especificada de outra maneira, sempre que 
mencionarmos a palavra amostra, estaremos entendendo a amostra obtida pelo pro¬ 
cesso probabilístico A AS, ou seja, o vetor aleatório (X v X 2 , ..., X„) definido acima. 


3. A distribuição do número de filhos, por família, de uma zona rural está no quadro abaixo. 


N 2 de filhos 

Porcentagem 

0 

10 

1 

20 

2 

30 

3 

25 

4 

15 

Total 

100 


(a) Sugira um procedimento para sortear uma observação ao acaso dessa população. 

(b) Dê, na forma de uma tabela de dupla entrada, as possíveis amostras do número de filhos 
de duas famílias que podem ser sorteadas e as respectivas probabilidades de ocorrência. 

(c) Se fosse escolhida uma amostra de tamanho 4, qual seria a probabilidade de se 
observara quádrupla ordenada (2, 3, 3,1)? 

10.6 Estatísticas e Parâmetros 

Obtida uma amostra, muitas vezes desejamos usá-la para produzir alguma caracte¬ 
rística específica. Por exemplo, se quisermos calcular a média da amostra (X 1( X 2 , ..., 
X„), esta será dada por 

X = \{X 1 + X 2 +...+X n }. 

É fácil verificar queX é também uma variável aleatória. Podemos também estar 
interessados em qualquer outra característica da amostra, que será sempre uma função 
do vetor aleatório (X lf ..., X„). 

Definição. Uma estatística é uma característica da amostra, ou seja, uma estatística T é 
uma função de X 1( X 2 , ..., X„. 

As estatísticas mais comuns são: 

n 

X = l/n XXj : média da amostra, 

/' =1 

1 n 

S 2 = -- X(X; - X Y : variância da amostra, 

n - 1 i=i 


X (1) = min (X lf X 2 , ..., X„) : o menor valor da amostra, 
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X (n) = max (X 1( X 2 , X„) : o maior valor da amostra, 

1/1/ = X (n) - X (1) : amplitude amostrai, 

X (i) = a /-ésima maior observação da amostra. 

Em geral, como já vimos no Capítulo 3, podemos considerar as estatísticas de ordem, 

X (1 , ^ X (2) ss ... X (n) , 

ou seja, os elementos da amostra ordenados. 

Outras estatísticas importantes são os quantis (empíricos), q(p), 0 < p < 1, defini¬ 
dos no Capítulo 3, especialmente os três quartis q v q 2 e q 3 . 

Para facilitar a linguagem usada em Inferência Estatística, iremos diferenciar as 
características da amostra e da população. 

Definição. Um parâmetro é uma medida usada para descrever uma característica 
da população. 

Assim, se estivermos colhendo amostras de uma população, identificada pela v.a. 
X, seriam parâmetros a média E(X) e sua variância Var(X). 

Os símbolos mais comuns são dados na tabela a seguir. 


Denominação 

População 

Amostra 

Média 

H=E(X) 

X=I>/n 

Mediana 

Md = Q 2 

md =q 2 

Variância 

<t 2 =Var(X) 

S 2 =X (X,.- X ) 2 /(n - 1) 

N 2 de elementos 

N 

n 

Proporção 

P 

P 

Quantil 

Q(p) 

Q(P ) 

Quartis 

O 

O 

O 

Pi, q 2 , Qs 

Intervalo inter-quartil 

Úq — Q 3 “ 0 1 

d q = Çb - <7i 

Função densidade 

fM 

histograma 

Função de distribuição 

FM 

F e M 


10.7 Distribuições Amostrais 

Vimos na seção 10.3 que o problema da inferência estatística é fazer uma afirma¬ 
ção sobre os parâmetros da população através da amostra. Digamos que nossa afirmação 
deva ser feita sobre um parâmetro 6 da população (por exemplo, a média, a variância 
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ou qualquer outra medida). Decidimos que usaremos uma AAS de n elementos sortea¬ 
dos dessa população. Nossa decisão será baseada na estatística T, que será uma função da 
amostra (X 1( X 2 , ..., X„), ou seja, T = f(X ll ..., X„). Colhida essa amostra, teremos observado 
um particular valor de T, digamos t 0 , e baseados nesse valor é que faremos a afirmação 
sobre d, o parâmetro populacional. Veja a Figura 10.1 (a). 

A validade da nossa resposta seria melhor compreendida se soubéssemos o que acon¬ 
tece com a estatística T, quando retiramos todas as amostras de uma população conhecida 
segundo o plano amostrai adotado. Isto é, qual a distribuição de T quando (X lf ..., X„) 
assume todos os valores possíveis. Essa distribuição é chamada distribuição amostrai da 
estatística T e desempenha papel fundamental na teoria da inferência estatística. 
Esquematicamente, teríamos o procedimento representado na Figura 10.1, onde temos: 

(a) uma população X, com determinado parâmetro de interesse 0; 

(b) todas as amostras retiradas da população, de acordo com certo procedimento; 

(c) para cada amostra, calculamos o valor t da estatística T; e 

(d) os valores t formam uma nova população, cuja distribuição recebe o nome de 
distribuição amostrai de T. 


Figura 10.1: (a) Esquema de inferência sobre 0. 

(b) Distribuição amostrai da estatística T. 


População 



(a) 
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Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distri¬ 
buição amostrai de uma estatística. Nosso principal objetivo é identificar um modelo 
que explique bem a distribuição amostrai de T. É evidente que a distribuição de T irá 
depender da distribuição de X e do plano amostrai, em nosso caso reduzido a A AS. 


Exemplo 10.9 Voltemos ao Exemplo 10.7, no qual selecionamos todas as amostras 
de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. A distribuição conjunta da 
variável bidimensional (X 1( X 2 ) é dada na Tabela 10.2. 

Vejamos qual é a distribuição da estatística 

X = Xl + Xl . (10.1) 


Essa distribuição é obtida por meio da Tabela 10.2. Por exemplo, quando a amos¬ 
tra selecionada é o par (1, 1), a média será 1; então, temos que P(X = 1) = 1/25. Obte¬ 
remos a média igual a 3 quando ocorrer o evento A = {(1, 5),(3, 3),(5, 1)}, logo 


,(*.3)-W)-£ + £ + £ + £- 


1 _ 
5 ' 


Tabela 10.2: Distribuição das probabilidades das possíveis amostras de tamanho 2 
que podem ser selecionadas com reposição da população {1,3,5,5,7}. 



1 

3 

5 

7 

Total 

1 

1/25 

1/25 

2/25 

1/25 

1/5 

3 

1/25 

1/25 

2/25 

1/25 

1/5 

5 

2/25 

2/25 

4/25 

2/25 

2/5 

7 

1/25 

1/25 

2/25 

1/25 

1/5 

Total 

1/5 

1/5 

2/5 

1/5 

1 


Procedendo de maneira análoga para os demais valores que X pode assumir, 
obtemos a Tabela 10.3,_que dá a distribuição da v.a. X. Na Figura 10.2 temos as 
distribuições de X e de X. 


Tabela 10.3: Distribuição amostrai da estatística X. 


X 

1 

2 

3 

4 

5 

6 

7 

Total 

P(X=x) 

1/25 

2/25 

5/25 

6/25 

6/25 

4/25 

1/25 

1,00 
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Figura 10.2: Distribuição de X (-) e X ( —), obtida de 25 amostras de tama¬ 

nho 2 de {1,3,5,5,7}. 



Com um procedimento análogo podemos obter as distribuições amostrais de ou¬ 
tras estatísticas de interesse. As Tabelas 10.4 e 10.5 trazem as distribuições amostrais 
das estatísticas 1/1/ = amplitude total e S 2 = X(X, - X) 2 /(n - 1), respectivamente. 


Tabela 10.4: Distribuição amostrai de l/l/. 


w 

O 

2 

4 

6 

Total 

P[W =w) 

7/25 

10/25 

6/25 

2/25 

1,00 


Tabela 10.5: Distribuição amostrai deS 2 . 


s 2 

O 

2 

8 

18 

Total 

P(5 2 =s 2 ) 

7/25 

10/25 

6/25 

2/25 

1,00 


Exemplo 10.5. (continuação) No caso do lançamento de uma moeda 50 vezes, usando 
como estatística X = número de caras obtidas, a obtenção da distribuição amostrai, que já 
foi vista, é feita por meio do modelo binomial b(50, p), qualquer que seja p = probabilidade 
de ocorrência de cara num lançamento, 0 < p < 1. Se estivermos interessados em 
julgar a "honestidade" da moeda, estaremos verificando se p = 0,5. Nessas condições, a 
P(X 5* 361 n = 50, p = 0,5) = 0,0013 = 0,13%. 

Portanto, caso a moeda seja honesta, em 50 lançamentos, a probabilidade de se 
obterem 36 ou mais caras é da ordem de 1 por 1.000. Ou seja, se a moeda fosse 
honesta, o resultado observado (36 caras) seria muito pouco provável, evidenciando 
que p > 0,5. 
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Comparando os dois últimos exemplos, vemos que nos interessa determinar pro¬ 
priedades das distribuições amostrais que possam ser aplicadas em situações mais 
gerais (como no caso binomial) e não em situações muito particulares (como no 
Exemplo 10.7). Iremos, agora, estudar as distribuições amostrais de algumas estatís¬ 
ticas importantes. Nos capítulos seguintes essas distribuições serão usadas para fa¬ 
zer inferências sobre populações. 

Quando estivermos trabalhando com populações identificadas pela distribuição de 
probabilidades, não poderemos gerar todas as amostras possíveis. Devemos conten¬ 
tarmos em simular um número "grande" de amostras e ter uma idéia do que acontece 
com a estatística de interesse. 

Exemplo 10.8. (continuação) Qual seria a distribuição amostrai da mediana das altu¬ 
ras de amostras de 5 mulheres retiradas da população X ~ A/(167; 25)? Como não 
podemos gerar todas as possíveis amostras de tamanho 5 dessa população, simula¬ 
mos, via Excel, 200 amostras de tamanho 5 e obtivemos os seguintes resultados: 

E(md) = 166,88, Var(md) = 7,4289, dp(md) = 2,72, 

X(i) = miníXj, ..., X 2 oq) = 160, x^ooj = oiax (X 1; ..., X 2 qo) = 173. 

Observando os resultados somos levados a pensar que a distribuição amostrai de 
md deve ser próxima de uma normal, com média próxima de /u = 167 e desvio padrão 
menor do que o = 5. Veja a Figura 10.3. 

Voltaremos a falar na distribuição da mediana amostrai em seções futuras. 


Figura 10.3: Distribuição amostrai da mediana, obtida de 200 amostras 
de tamanho 5 de X ~ N (167; 25). 



4. Usando os dados da Tabela 10.2, construa a distribuição amostrai da estatística 
E(Xi-x ) 2 


o L = 


n 
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5. No Problema 3, se X indicar o número de filhos na população, X 1 o número de filhos 
observados na primeira extração eX 2 na segunda: 

(a) calcule a média e a variância deX; 

(b) calcule £(X,-) e Var(X,), / = 1, 2; 


(c) construa a distribuição amostrai de X 


(X i +X2) 


(d) calcule £ (X) eVar(X); 

(e) faça num mesmo gráfico os histogramas deX e de X ; 

(f) construa as distribuições amostrais de S 2 = ^ / = 1 (X, - X ) 2 e à 2 =^ j = 1 (X, - X) 2 /2; 

(g) baseado no resultado de (f), qual dos dois estimadores você usaria para estimar a 
variância de X? Por quê? 

(h) calcule P (|X —fi\ >1). 


6. Ainda com os dados do Problema 3, e para amostras de tamanho 3: 

(a) determine a distribuição amostrai de X e faça o histograma; 

(b) calcule a média e variância de X; 

(c) calculeP(IX - |íl > 1). 

(d) se as amostras fossem de tamanho 4, a P (|X - /j >1) seria maior ou menor do que 
a probabilidade encontrada em fcj? Por quê? 


10.8 Distribuição Amostrai da Média 

Vamos estudar agora a distribuição amostrai da estatística X, a média da amostra. 
Consideremos uma população identificada pela variável X, cujos parâmetros média 
populacional n = E(X) e variância populacional o 2 = Var(X) são supostos conhecidos. 
Vamos retirar todas as possíveis AAS de tamanho n dessa população, e para cada uma 
calcular a média X. Em seguida, consideremos a distribuição amostrai e estudemos 
suas propriedades. Voltemos a considerar, a título de ilustração, 0 Exemplo 10.7. 


Exemplo 10.10. A população {1, 3, 5, 5, 7} tem média ju = 4,2 e variância o 2 = 4,16. 
A distribuição amostrai deX está na Tabela 10.3, da qual obtemos 

E<X)=l- XiPi = lx± + 2x 2 + 3 xA + 4xA + 5x A 


+ 6 x 


4_ 

25 


+ 7X 2Í 


= 4,2. 


De modo análogo, encontramos 

Var(X) = 2,08. 


Verificamos, aqui, dois fatos: primeiro, a média das médias amostrais coincide com a 
média populacional; segundo, a variância deX é igual à variância de X, dividida por n =2. 
Estes dois fatos não são casos isolados. Na realidade, temos 0 seguinte resultado. 
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Teorema 10.1, Seja X uma v.a. com média /u e variância o 2 , e seja (X 1( X„) uma 

AAS de X. Então, 

E(X)=n e Var(X) = ■ 

Prova Pelas propriedades vistas no Capítulo 8, temos: 

EU) = (l/n) {EU,) + ... + E(X„)} 

= (l/n) {/u + iu +... + iu} = n/uln = /u. 

De modo análogo, e pelo fato deX^ ..., X„ serem independentes, temos 
Var(X) = (l/n 2 ) {Var(Xj) + ... +Var(X n )} 

= (l/n 2 ) {cr 2 + ... + a 2 } = na 2 In 2 = a 2 ln. 

Determinamos, então, a média e a variância da distribuição amostrai deX. Veja¬ 
mos, agora, como obter informação sobre a forma da distribuição dessa estatística. 

Exemplo 10.10. (continuação) Para a população {1, 3, 5, 5, 7}, vamos construir os 
histogramas das distribuições deX para n = 1, 2 e 3. 

(i) Para n = 1, vemos que a distribuição de X coincide com a distribuição de X, com 
E(X) = E(X) =4,2 eVar(X) =Var(X) =4,16 (Figura 10.4(a)). 


Figura 10.4: Distribuição de X para amostras 
de {1,3,5,5, 7}. 
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(ii) Para n =2, baseados na Tabela 10.3, temos a distribuição de X dada na Figura 
10.4(b), com E(X) = 4,2 e Var(X) = 2,08. 

(iii) Finalmente, para n = 3, com os dados da Tabela 10.6, temos a distribuição de X na 
Figura 10.4 (c), com E(X) = 4,2 e Var(X) = 1,39. 

Observe que, conforme n vai aumentando, o histograma tende a se concentrar cada 
vez mais em torno de E(X) = E(X ) = 4,2, já que a variância vai diminuindo. Os casos 
extremos passam a ter pequena probabilidade de ocorrência. Quando n for suficiente¬ 
mente grande, o histograma alisado aproxima-se de uma distribuição normal. Essa apro¬ 
ximação pode ser verificada analisando-se os gráficos da Figura 10.5, que mostram o 
comportamento do histograma deX para várias formas da distribuição da população e 
vários valores do tamanho da amostra n. 

Esses exemplos sugerem que, quando o tamanho da amostra aumenta, indepen¬ 
dentemente da forma da distribuição da população, a distribuição amostrai deX apro¬ 
xima-se cada vez mais de uma distribuição normal. Esse resultado, fundamental na 
teoria da Inferência Estatística, é conhecido como Teorema Limite Central (TLC). 


Figura 10.5 Histogramas correspondentes às distribuições amostrais de X para amostras extraídas 
de algumas populações. 



Teorema 10.2. (TLC) Para amostras aleatórias simples (X 1( ..., X„), retiradas de uma 
população com média /a e variância <r 2 finita, a distribuição amostrai da média X apro¬ 
xima-se, para n grande, de uma distribuição normal, com média /a e variância o 2 )n. 
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A demonstração completa desse teorema exigiria recursos dos quais não dispo¬ 
mos, portanto não será dada, mas o importante é sabermos como esse resultado pode 
ser usado. 

Observemos que, se a população for normal, então X terá distribuição exata nor¬ 
mal. Esse resultado segue do fato de que a distribuição de uma combinação linear de 
v.a.'s normais independentes tem ainda distribuição normal. No caso da X, a média 
e variância dessa normal serão dadas pelo Teorema 10.1. A prova dessa propriedade 
depende do conceito de função geradora de momentos, que não será objeto deste livro. 
O leitor interessado pode consultar M eyer (1965), por exemplo. 

Exemplo 10.11. Voltemos ao Exemplo 10.4, onde uma máquina enchia pacotes cujos 
pesos seguiam uma distribuição A/(500, 100)^Colhendo-se um amostra de n = 100 paco¬ 
tes e pesando-os, pelo que foi dito acima, X terá uma distribuição normal com média 
500 e variância 100/100 = 1. Logo, se a máquina estiver regulada, a probabilidade de 
encontrarmos a média de 100 pacotes diferindo de 500 g de menos de 2 gramas será 

P(\X- 5001 < 2) = P(498 < X"< 502) =P(-2 < Z < 2) » 95%. 

Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498, 502). 
Caso 100 pacotes apresentem uma média fora desse intervalo, podemos considerar 
como um evento raro, e será razoável supor que a máquina esteja desregulada. 

Outra maneira de apresentar o TLC é por meio do 

Corolário 10.1. Se (X 1( ..., X„) for uma amostra aleatória simples da população X, com 
média /u e variância o 2 finita, e X = (X L + ... +X„)/n, então 

Z = ~ N(0, 1). (10.2) 

a/V n 

Basta notar que se usou a transformação usual de reduzir a distribuição deX a uma 
normal padrão. Observe, também, que (10.2) pode ser escrita como 

Z = ~ n (0,1). (10.3) 

G 

Chamemos de e a v.a. que mede a diferença entre a estatísticaX e o parâmetro /a, 
isto é, e =X - /u; e é chamado o erro amostrai da média. Então, temos o 

Corolário 10.2. A distribuição de e aproxima-se de uma distribuição normal com 
média 0 e variância o 2 /n, isto é, 


Í2J-~N(0, 1). (10.4) 

o 

O TLC afirma queX aproxima-se de uma normal quando n tende para o infinito, e 
a rapidez dessa convergência (veja a Figura 10.5) depende da distribuição da popula- 
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ção da qual a amostra é retirada. Se a população original tem uma distribuição próxi¬ 
ma da normal, a convergência é rápida; se a população original se afasta muito de uma 
normal, a convergência é mais lenta, ou seja, necessitamos de uma amostra maior para 
queX tenha uma distribuição aproximadamente normal. Para amostras da ordem de 30 
ou 50 elementos, a aproximação pode ser considerada boa. 


7. Uma v.a. X tem distribuição normal, com média 100 e desvio padrão 10. 

(a) Qual a P (90 < X < 110)? 

(b) Se X for a média de uma amostra de 16 elementos retirados dessa população, calcule 
P( 90 < X < 110). 

(c) Represente, num único gráfico, as distribuições deX e X. 

(d) Que tamanho deveria ter a amostra para que P (90 < X < 110) = 0,95? 

8. A máquina de empacotar um determinado produto o faz segundo uma distribuição nor¬ 
mal, com média p e desvio padrão 10 g. 

(a) Em quanto deve ser regulado o peso médio p para que apenas 10% dos pacotes 
tenham menos do que 500 g? 

(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de 4 paco¬ 
tes escolhidos ao acaso seja inferior a 2 kg? 

9. No exemplo anterior, e após a máquina estar regulada, programou-se uma carta de 
controle de qualidade. De hora em hora, será retirada uma amostra de quatro pacotes e 
esses serão pesados. Se a média da amostra for inferior a 495 g ou superior a 520 g, 
encerra-se a produção para reajustar a máquina, isto é, reajustar o peso médio. 

(a) Qual é a probabilidade de ser feita uma parada desnecessária? 

(b) Se o peso médio da máquina desregulou-se para 500 g, qual é a probabilidade de 
continuar a produção fora dos padrões desejados? 

1 0. A capacidade máxima de um elevador é de 500 kg. Se a distribuição X dos pesos dos 
usuários for suposta N (70,100) : 

(a) Qual é a probabilidade de sete passageiros ultrapassarem esse limite? 

(b) E seis passageiros? 


10.9 Distribuição Amostrai de uma Proporção 

Vamos considerar uma população em que a proporção de elementos portadores de 
certa característica é p. Logo, podemos definir uma v.a. X, da seguinte maneira: 

X _{ 1, se o indivíduo for portador da característica 
lo, se o indivíduo não for portador da característica, 


logo, 


p=E(X)=p, a 2 = Var(X) =p(l - p). 
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Retirada uma AAS dessa população, e indicando por Y n o total de indivíduos porta¬ 
dores da característica na amostra, já vimos que 

Y n ~ b(n, p). 

Vamos definir por p a proporção de indivíduos portadores da característica na 
amostra, isto é, 


P = 


Yn. 

n 


Então, 


P(Y n =k) = P (Ynln = k/n) =P(p=k/n), 
ou seja, a distribuição amostrai de p é obtida da distribuição de Y n . 

Vimos na seção 7.5 que a distribuição binomial pode ser aproximada pela distribuição 
normal. Vamos mostrar que a justificativa desse fato está no TLC. Inicialmente, observe que 


Y n =X 1 +X 2 + ... + X„, 

onde cada X, tem distribuição de Bernoulli, com média çi=pe variância cr 2 = p( 1 - p), 
e são duas a duas independentes. Podemos escrever que 

Y n = nX, 


mas pelo TLC,X terá distribuição aproximadamente normal, com média p e variância 
P(1 - P) 


, ou seja, 


X ~ N p, 


P(1 - P) 


Logo, a transformação Y„ = nX terá a distribuição 

Y n ~ N (np, np( 1 - p)), 

que foi a aproximação adotada na seção 7.5. 

Observe queX, na expressão acima, é a própria variável p e, desse modo, para n 
grande podemos considerar a distribuição amostrai de p como aproximadamente normal: 


Exemplo 10.12. Suponha que p = 30% dos estudantes de uma escola sejam mulheres. 
Colhemos uma AAS de n = 10 estudantes e calculamos p = proporção de mulheres na 
amostra. Qual a probabilidade de que p difira de p em menos de 0,01? Temos que essa 
probabilidade é dada por 

P (\p - p\ < 0,01) = P (- 0,01 < p - p < 0,01). 
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M as, p - p ~ N (o, P ^ ^ j, e como p = 0,3, temos que 

Var(p) = (0, 3)(0, 7)/10 = 0,021, 
e, portanto, a probabilidade pedida é igual a 

PÍ^ML< Z < — °-°L 1 = P (- 0,07 <Z < 0,07) = 0,056. 

W 0,021 V 0,021/ 


11. Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se oito peças, com 
reposição, e calcula-se a proporção p de peças defeituosas na amostra. 

(a) Construa a distribuição exata de p (use a tábua da distribuição binomial). 

(b) Construa a aproximação normal à binomial. 

(c) Você pensa que a segunda distribuição é uma boa aproximação da primeira? 

(d) Já sabemos que, para dado p fixo, a aproximação melhora à medida que n aumenta. 
Agora, se n for fixo, para qual valor de p a aproximação é melhor? 

12. Um procedimento de contfole de qualidade foi planejado para garantir um máximo de 
10% de itens defeituosos na produção. A cada 6 horas sorteia-se uma amostra de 20 
peças e, havendo mais de 15% de defeituosas, encerra-se a produção para verificação 
do processo. Qual a probabilidade de uma parada desnecessária? 

13. Supondo que a produção do exemplo anterior esteja sob controle, isto é, p - 10%, e que os 
itens sejam vendidos em caixas com 100 unidades, qual a probabilidade de que uma caixa: 

(a) tenha mais do que 10% de defeituosos? 

(b) não tenha itens defeituosos? 

10.10 Outras Distribuições Amostrais 

Do mesmo modo que estudamos a distribuição amostrai de X, podemos, em prin¬ 
cípio, estudar a distribuição amostrai de qualquer estatística T = f(X lt ..., X„). Mas, 
quanto mais complexa for essa relação f, mais difícil será a derivação matemática das 
propriedades dessa estatística. Vejamos alguns exemplos. 

Exemplo 10.13. Na Tabela 10.6 apresentamos a distribuição de três outras estatísticas; 
a variância da amostra, 

s2 =(íTi) 

a mediana amostrai, md, e o estimador 

â 2 =|Ê(X,-X) 2 , 

II l =1 
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que difere de S 2 apenas no denominador, e que foi estudado no Capítulo 3. Desta 
tabela, obtemos as distribuições amostrais apresentadas nas Tabelas 10.7, 10.8 e 10.9. 


Tabela 10.6: Distribuição amostrai de algumas estatísticas obtidas de amostra de tamanho n =3, 
retiradas da população {1,3, 5, 5, 7} (/u =4,2, cr 2 = 4,16 e Md =5). 


Tipo de 
amostra 

Freqüência 
(prob. x 125) 

Soma 

Soma dos 
quadrados 

Média 

X 

Mediana 

md 

Variância 

s 2 

a 2 

111 

1 

3 

3 

1,00 

1 

0 

0 

113 

3 

5 

11 

1,67 

1 

4/3 

8/9 

115 

6 

7 

27 

2,33 

1 

16/3 

32/9 

117 

3 

9 

51 

3,00 

1 

12 

8 

133 

3 

7 

19 

2,33 

3 

4/3 

8/9 

135 

12 

9 

35 

3,00 

3 

4 

8/3 

137 

6 

11 

59 

3,67 

3 

28/3 

56/9 

155 

12 

11 

51 

3,67 

5 

16/3 

32/9 

157 

12 

13 

75 

4,33 

5 

28/3 

56/9 

177 

3 

15 

99 

5,00 

7 

12 

8 

333 

1 

9 

27 

3,00 

3 

0 

0 

335 

6 

11 

43 

3,67 

3 

4/3 

8/9 

337 

3 

13 

67 

4,33 

3 

16/3 

32/9 

355 

12 

13 

59 

4,33 

5 

4/3 

8/9 

357 

12 

15 

83 

5,00 

5 

4 

8/3 

377 

3 

17 

107 

5,67 

7 

16/3 

32/9 

555 

8 

15 

75 

5,00 

5 

0 

0 

557 

12 

17 

99 

5,67 

5 

4/3 

8/9 

577 

6 

19 

123 

6,33 

7 

4/3 

8/9 

777 

1 

21 

147 

7,00 

7 

0 

0 

Total 

125 








Tabela 10.7: Distribuição amostrai da variância S 2 , para amostras de tamanho 3, retiradas da população 
{1,3,5,5,7}. 


S 2 

0,00 

1,33 

4,00 

5,33 

9,33 

12,00 

P (S 2 = s 2 ) 

11/125 

42/125 

24/125 

24/125 

18/125 

6/125 


E(S 2 ) = 4,16, Var(S 2 ) = 11,28. 

Tabela 10.8: Distribuição amostrai da mediana da amostra md para amos¬ 
tras de tamanho 3, retiradas da população {1,3, 5, 5, 7}. 


md 

1 

3 

5 

7 

Prob. 

13/125 

31/125 

68/125 

13/125 


E(md) = 4,30, Var (md) = 2,54. 
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Tabela 10.9: Distribuição amostrai da variância ô 2 , para amostras de 
tamanho 3, retiradas da população {1,3, 5, 5, 7}. 


<T 2 

0,00 

0,89 

2,67 

3,56 

6,22 

8,00 

Prob. 

11/125 

42/125 

24/125 

24/125 

18/125 

6/125 


E(â 2 ) = 2,77, Var(â 2 ) = 5,04. 

Os gráficos das funções de probabilidade estão nas Figuras 10.6, 10.7 e 10.8. A 
obtenção das propriedades dessas estatísticas, de modo geral, não é uma tarefa fácil, e os 
modelos de probabilidade resultantes correspondem a distribuições mais complexas. 

Figura 10.6: Distribuição amostrai de S 2 para amostras de 
tamanho n =3 extraídas de {1,3, 5, 5, 7}. 



Figura 10.7: Distribuição amostrai de md para amostras de tamanho 
n = 3 de {1,3, 5, 5, 7}. 
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Figura 10.8 Distribuição amostrai de <7 2 para amostras de tamanho n = 3 extraídas de 
{1,3,5,5,7}. 



Por exemplo, note queJ:(S 2 ) = 4,16 = <r 2 , logo S 2 satisfaz uma propriedade análoga 
a E(X) =iu\ dizemos que X e S 2 são estimadores não-viesados dos respectivos parâmetros 
H e o 2 . Esta propriedade já não vale para md e ô 1 , pois E(md) = 4,3, enquanto Md = 5,0 
e E(ô 2 ) = 2,77 e não 4,16. Vemos que ô 2 sub-estima a verdadeira variância. 

Também pode-se demonstrar que S 2 segue uma distribuição que é um múltiplo de 
uma distribuição qui-quadrado (X 2 ), quando a população tem distribuição normal. Ver 
a seção 11.9. Já a mediana md, obtida de amostras de uma população simétrica, com 
média /u e variância o 2 , segue aproximadamente uma distribuição normal, com média 
E(md) = ju e Var (md) = (nc 2 )l(2n). N ote que se exigem mais suposições do que aquelas 
mencionada no TLC. Nos Capítulos 11 e 12 voltaremos a discutir algumas distribui¬ 
ções amostrais e suas aplicações. 


14. Usando os dados da Tabela 10.2: 

(a) construa a distribuição amostrai de a 2 e compare com a distribuição amostrai de S 2 (Tabela 
10.5). Você notou alguma propriedade deS 2 que seja "melhor" do que de ô 2 ? 

(b) seja U a média de elementos distintos de amostras de tamanho n -3. Por exemplo, se 
a amostra observada for (1, 1, 3), então u = (1 + 3)/2 = 2. Construa a distribuição 
amostrai de U; 

(c) compare as distribuições amostrais de U e X . 

15. Na tabela abaixo tem-se a distribuição dos salários da Secretaria A. 


Classes de salários 

Freqüência relativa 

4,51- 7,5 

0,10 

7,51- 10,5 

0,20 

10,51- 13,5 

0,40 

13,51— 16,5 

0,20 

16,51— 19,5 

0,10 
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(a) Calcule a média, a variância e a mediana dos salários nessa população. 

(b) Construa a distribuição amostrai da média e da mediana para amostras de tamanho 2, 
retiradas dessa população. 

(c) Mostre que a média X e a mediana md da amostra são estimadores não-viesados da 
mediana Md da população, no sentido que£(X) =E(md) =M d. 

(d) Qual dos dois estimadores não-viesados você usaria para estimar Md nesse caso? 
Por quê? 

(e) Baseado na distribuição amostrai da média, encontre a distribuição amostrai da 
estatística 


Z = 


X-jU 

a 


Vth, 


para n-2. 

(f) Quais são os valores de E(Z) e Var(Z)? 

(g) Construa a distribuição amostrai da estatística 

s 2 = -^rÊu,- X) 2 , 

n - i / =i 

e faça o seu histograma. 

(h) Calcule a média e variância de S 2 . 

(i) Baseando-se nas distribuições amostrais anteriores, determine a distribuição amostrai 
da estatística 


e construa seu histograma. Qual o problema encontrado? 

(j) Calcule a média e variância de f, quando possível. 

(k) Calcule a P (11| < 2) e P (11| < 4,30). 


16. Tente esboçar como ficariam os histogramas das estatísticas abaixo, para amostras de 
tamanho grande. 

(a) S 2 (faça o histograma da distribuição da Tabela 10.5) 


(b) Z = ———/n (Veja o Teorema Limite Central) 


(c) 


t = X $ ^ Vn, definida no problema anterior (compare com a expressão e o resu 
tado obtido em (b)). 


10.11 Determinação do Tamanho de uma Amostra 

Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra, 
n, era conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da 
amostra a ser escolhida de uma população, de modo a obter um erro de estimação 
previamente estipulado, com determinado grau de confiança. 
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Por exemplo, suponha que estejamos estimando a média /a populacional e para 
tanto usaremos a média amostrai, X, baseada numa amostra de tamanho n. Suponha 
que se queira determinar o valor de n de modo que 

P(\X - ju\ *£ £) 5* y, (10.5) 

com 0<Y<leeéo erro amostrai máximo que podemos suportar, ambos valores fixados. 

Sabemos que X ~ N(/i, <r 2 /n), logo X - n ~ N(0, a 2 ln) e portanto (10.5) pode ser 
escrita 

P(-e^ X - n « e) = « 7 , 

com Z = (X - n) -fnto . Dado y, podemos obter z 7 da A/(0,1), tal que P(-z r <Z < z y ) = 
y, de modo que 

dn e _ 7 


do que obtemos finalmente 


n = 


(7 Zy 


( 10 . 6 ) 


Note que em (10.6) conhecemos z r e e, mas <r 2 é a variância desconhecida da 
população. Para podermos ter uma idéia sobre n devemos ter alguma informação pré¬ 
via sobre c 2 ou, então, usar uma pequena amostra piloto para estimar a 2 . 


Exemplo 10.13. (continuação; Suponha que unia pequena amostra piloto de n = 10, 
extraída de uma população, forneceu os valores X = 15 e S 2 = 16. Fixando-se e = 0,5 e 
7 = 0,95, temos 


_ 16 x (1,96) 2 
(0,5) 2 


245. 


No caso de proporções, usando a aproximação normal da seção 10.9 para p, é 
fácil ver que (10.6) resulta 


_ Zyp(l - p) 
£ 2 


(10.7) 


Como não conhecemos p, a verdadeira proporção populacional, podemos usar o 
fato de que p(l - p) «= 1 / 4 , para todo p, e (10.7) fica 



Por outro lado, se tivermos alguma informação sobre p ou pudermos estimá-lo 
usando uma amostra piloto, basta substituir esse valor estimado em (10.7). 
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Exemplo 10.14. Suponha que numa pesquisa de mercado estima-se que no mínimo 
60% das pessoas entrevistadas preferirão a marca A de um produto. Essa informação é 
baseada em pesquisas anteriores. Se quisermos que o erro amostrai de p seja menor do 
que e = 0,03, com probabilidade y = 0,95, teremos 


« (1,96) 2 (0,6)(0,4) 
(0,03) 2 


1.024, 


na qual usamos o fato de que p > 0,60. Veja também os Problemas 19, 20 e 41. 


emas 


17. Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva 
aplicar uma vacina, de modo que a proporção de indivíduos imunizados na amostra 
difira de menos de 2% da proporção verdadeira de imunizados na população, com 
probabilidade 90%. Qual o tamanho da amostra a escolher? Use (10.8). 

18. No problema anterior, suponha que a indústria tenha a informação de que a proporção 
de imunizados pela vacina seja p 3= 0,80. Qual o novo tamanho de amostra a escolher? 
Houve redução? 

1 9. Seja o tamanho de amostra dado por (10.7) e n 0 dado por (10.8). Prove que, para todo p, 
temos n n 0 . (Use a função f(p) =p(l - p) para sua resposta.) 

20. Suponha que haja a informação p p 0 < 0,5, com p 0 conhecida. Se n 1 = z 2 p 0 ( 1 - p 0 )/£ 2 , 
mostre que n =£ n 1 < n B . Mostre que essa mesma relação vale se soubermos que 
P s* Po> 0,5. 

[Sugestão: note que f(p) =p(l - p) é crescente em [0; 0,5], atinge o máximo em 0,5 e 
depois é decrescente em [0,5; 1].] 

10.12 Exemplos Computacionais 

Vimos, no Exemplo 10.7, como escolher todas as possíveis amostras de tamanho 
n = 2, com reposição, da população {1, 3, 5, 5, 7}. Obtemos 5 2 = 25 amostras. Como 
já salientamos em seções anteriores, ao escolher uma amostra de uma população, 
estamos na realidade gerando valores de uma v.a. com determinada distribuição de 
probabilidades, supostamente conhecida. No exemplo, podemos pensar na v.a. X, as¬ 
sumindo os valores x 1 = 1, x 2 = 3, x 3 = 5, x 4 = 5, x 5 = 7, com probabilidades todas iguais 
a 0,2. Portanto, para escolher uma amostra de tamanho n = 2, basta gerar dois valores 
dessa distribuição, como aprendemos no Capítulo 9. 

Os programas Excel, SPIus e M initab têm comandos apropriados para gerar amos¬ 
tras de uma população especificada. 

Exemplo 10.15. O Excel usa a opção Amostragem, dentro de "Análise de Dados" do 
menu "Ferramentas". Na coluna G do quadro do Exemplo 9.5, temos uma amostra 
aleatória simples (com reposição), de tamanho n = 5 da população P = {1, 2, ..., 10}, 
que está na coluna F. 
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Exemplo 10.16, O SPIus usa o comando sample(x,n) para gerar uma amostra sem 
reposição de tamanho n do conjunto x e o comando sample(x,n,replace= T) para gerar 
uma amostra com reposição. O Quadro 10.1 mostra como obter amostras de tamanho 
n = 7 do conjunto x = {1, 2, 3, ..., 15}, sem e com reposição. 


Quadro 10.1: Geração de amostras. SPlus. 



Exemplo 10.17. O M initab usa os comandos Sample e Replace para obter amostras. 
Temos, no Quadro 10.2, amostras de tamanho n = 5 obtidas do conjunto {1, 2, ..., 10} 
(na coluna Cl). Na coluna C2 temos uma amostra sem reposição e na coluna C3 uma 
amostra com reposição. 


Quadro 10.2: Geração de amostras. Minitab. 



Cl 

C2 

C3 


1 

1 

10 

8 


2 

2 

1 

3 


3 

3 

8 

8 

MTB > Sample 5 Cl C2. 

4 

4 

2 

6 

MTB > 

5 

5 

7 

4 

MTB > Sample 5 Cl C3; 

6 

6 



SUBC> Replace. 

7 

7 



MTB > 

8 

8 




9 

9 




10 

10 





10.13 Problemas e Complementos 

21. Uma v.a. X tem distribuição normal com média 10 e desvio padrão 4. Aos participantes 
de um jogo é permitido observar uma amostra de qualquer tamanho e calcular a média 
amostrai. Ganha um prêmio aquele cuja média amostrai for maior que 12. 

(a) Se um participante escolher uma amostra de tamanho 16, qual é a probabilidade de 
ele ganhar um prêmio? 

(b) Escolha um tamanho de amostra diferente de 16 para participar do jogo. Qual é a 
probabilidade de você ganhar um prêmio? 

(c) Baseado nos resultados acima, qual o melhor tamanho de amostra para participar 
do jogo? 
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22. Se uma amostra com 36 observações for tomada de uma população, qual deve ser o 
tamanho de uma outra amostra para que o desvio padrão dessa amostra seja 2/3 do 
desvio padrão da média da primeira? 

23. Definimos a variável e = X — fi como sendo o erro amostrai de média. Suponha que a 
variância dos salários de uma certa região seja 400 reais 2 . 

(a) Determine a média e a variância de e. 

(b) Que proporção das amostras de tamanho 25 terão erro amostrai absoluto maior do 
que 2 reais? 

(c) E qual a proporção das amostras de tamanho 100? 

(d) Nesse último caso, qual o valor de d, tal que P( | ej > d) - 1%? 

(e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutos 
sejam inferiores a um real? 

24. A distribuição dos comprimentos dos elos da corrente de bicicleta é normal, com média 2 
cm e variância 0,01 cm 2 . Para que uma corrente se ajuste à bicicleta, deve ter comprimen¬ 
to total entre 58 e 61 cm. 

(a) Qual é a probabilidade de uma corrente com 30 elos não se ajustar à bicicleta? 

(b) E para uma corrente com 29 elos? 

[Observação: suponha que os elos sejam selecionados ao acaso para compor a corrente, 
de modo que se tenha independência.] 

25. Cada seção usada para a construção de um oleoduto tem um comprimento médio de 5 m 
e desvio padrão de 20 cm. O comprimento total do oleoduto será de 8 km. 

(a) Se a firma construtora do oleoduto encomendar 1.600 seções, qual é a probabilidade 
de ela ter de comprar mais do que uma seção adicional (isto é, de as 1.600 seções 
somarem menos do que 7.995 m)? 

(b) Qual é a probabilidade do uso exato de 1.599 seções, isto é, a soma das 1.599 
seções estar entre 8.000 m e 8.005 m? 

26. Um professor dá um teste rápido, constante de 20 questões do tipo certo-errado. Para testar 
a hipótese de o estudante estar adivinhando a resposta, ele adota a seguinte regra de deci¬ 
são: "Se 13 ou mais questões estiverem corretas, ele não está adivinhando". Qual é a 
probabilidade de rejeitarmos a hipótese, sendo que na realidade ela é verdadeira? 

27. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes não 
germinam. Ele vende pacotes com 200 sementes com garantia de 90% de germinação. 
Qual é a probabilidade de que um pacote não satisfaça à garantia? 

28. Uma empresa fabrica cilindros com 50 mm de diâmetro, sendo o desvio padrão 2,5 mm. Os 
diâmetros de uma amostra de quatro cilindros são medidos a cada hora. A média da 
amostra é usada para decidir se o processo de fabricação está operando satisfatoriamente. 
Aplica-se a seguinte regra de decisão: "Se o diâmetro médio de amostra de quatro cilindros 
for maior ou igual a 53,7 mm, ou menor ou igual a 46,3 mm, deve-se parar o processo. Se 
o diâmetro médio estiver entre 46,3 e 53,7 mm, o processo continua. 

(a) Qual é a probabilidade de se parar o processo se a média dos diâmetros permanecer 
em 50 mm? 

(b) Qual é a probabilidade de o processo continuar se a média dos diâmetros se deslo¬ 
car para 53,7 mm? 
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29. O CD-Veículos traz os preços de 30 carros nacionais e importados, extraídos da população 
de todos os carros vendidos no mercado. Supondo que o desvio padrão dessa amostra seja 
um bom representante do verdadeiro desvio padrão da população, qual será o tamanho de 
uma outra amostra a ser escolhida, de modo que, com probabilidade 90%, a média amostrai 
difira da verdadeira média de menos de 0,02? 

30. Tabela de Números Aleatórios. Para sortear AAS, costuma-se usartabelas de números ale¬ 
atórios, que são coleções de dígitos construídos aleatoriamente e que simulam o processo 
de sorteio. Na Tabela VII, apresentamos um pequeno conjunto de números aleatórios. Po¬ 
dem ser usados do seguinte modo: se quisermos selecionar dez nomes de uma lista de 90 
pessoas, devemos começar numerando-os 01, 02, ..., 90. Em seguida, escolhemos duas 
colunas, digamos as duas primeiras, e tomamos os dez primeiros números; no caso, serão: 
61, 94, 50,51,25,63, 12,38, 22,07,61. 

Observe que o 94 foi eliminado, pois não existe esse número na população, e o 61 deverá 
aparecer repetido. Para outras explicações e tabelas maiores, consultar Pereira e Bussab (1974). 

31. Como você usaria uma tabela (ou um gerador) de números aleatórios para sortear uma 
amostra nas seguintes situações: 

(a) 5 alunos de sua classe; 

(b) 10 alunos de sua escola; 

(c) 15 d omicílios de seu bairro; 

(d) 20 ações negociadas na Bolsa de São Paulo; 

(e) 5 números de uma população cujos elementos são numerados de 1 a 115. Existe 
algum modo de "apressar" o sorteio? 

(f) 5 números de uma população de 115 nomes, cujos números vão de 612 a 726; 

(g) 5 números de uma população de 115 nomes, cuja numeração não é seqüencial, mas 
está compreendida entre os números 300 e 599. 

32. Distribuição amostrai da diferença de duas médias. Consideremos duas populações X 
com parâmetros fii e o\e V com parâmetros|í 2 e a\. Sorteiam-se duas amostras indepen¬ 
dentes: a da primeira população de tamanho neada segunda de tamanho m. Calcu¬ 
lam-se as médias amostrais X e Y. 

(a) Qual a distribuição amostrai de X? E de Y? 

(b) Defina D - X - Y. O que você entende por distribuição amostrai de D ? 

(c) Calcule E (D) eVar(D). 

(d) Como você acha que será a distribuição de D ? Por quê? 

33. A distribuição dos salários (em salários mínimos) de operários do sexo masculino de uma 
grande fábrica é A/(5,4; 1,69), e a de operários do sexo feminino é N (5,4; 2,25). 
Sorteiam-se duas amostras, uma com 16 homens e outra com 16 mulheres. Se D for a 
diferença entre o salário médio dos homens e das mulheres: 

(a) Calcule P (| D | > 0,5). 

(b) Qual o valor de d tal que P(| D | > d) - 0,05? 

(c) Que tamanho comum deveriam ter ambas as amostras para que P (| D | > 0,4) =0,05? 
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34. Numa escola A, os alunos submetidos a um teste obtiveram média 70, com desvio padrão 
10. Em outra escola 8, os alunos submetidos ao mesmo teste obtiveram média 65 e desvio 
padrão 15. Se colhermos na escola A uma amostra de 36 alunos e na 8, uma de 49 alunos, 
qual é a probabilidade de que a diferença entre as médias seja superior a 6 unidades? 

35. Distribuição amostrai da diferença de duas proporções. Usando os resultados do Proble¬ 
ma 32, qual seria a distribuição de p} - p 2 , a diferença entre as proporções de amostras 
independentes retiradas de populações com parâmetrosp x ep 2 ? 

36. Amostras sem reposição de populações finitas. Suponha uma população com N elementos. 
Vimos que se extrairmos uma amostra de tamanho n, com reposição, e calcularmos a 
média amostrai X, então E(X) = p e Var(X) = a 2 /n, onde p e (J 2 são a média e a variância 
da população, respectivamente. No entanto, se a amostragem for feita sem reposição, 
então E (X) - p continua a valer, mas 

VatlX) =CÍ (-Çy. 

O fator (N - n)l(N - 1) é chamado fator de correção para populações finitas. Note que se 
n for muito menor que N, então esse fator é aproximadamente igual a um, e amostras com 
ou sem reposição são praticamente equivalentes. 

Considere, agora, uma população P = {1, 3, 5, 5, 7}, logo N = 5. Retire amostras de 
tamanho n=2, sem reposição, e construa a distribuição amostrai de X = (X 1 +X 2 )/2. Obte¬ 
nha E(X ) e Var(X) e verifique que esta é dada pela fórmula acima. 

37. Planos probabilísticos. Existem vários planos probabilísticos que são utilizados em situa¬ 
ções práticas. Vamos descrever brevemente alguns deles. 

(a) Amostragem Aleatória Simples (AAS). Nesse plano as n unidades que compõem a amostra 
são selecionadas de tal forma que todas as possíveis amostras têm a mesma probabili¬ 
dade de serem escolhidas. Podemos ter AAS com e sem reposição. No Exemplo 9.6 
cada amostra com reposição tem probabilidade 1/25 de ser escolhida. 

(b) Amostragem Aleatória Estratificada. Nesse procedimento, a população é dividida em 
subpopulações ou estratos, usualmente de acordo com os valores (ou categorias) de 
uma variável, e depois AAS é utilizada na seleção de uma amostra de cada estrato. 
Por exemplo, considere uma população de N =10 estudantes, para os quais defini¬ 
mos as variáveis renda familiar (Xj) e classe social (X 2 ), categorizada como A, B ou 
C. Então, P = {1, 2, ...,10} e suponha que a matriz de dados seja 

D JlO 8 15 6 22 12 7 16 13 11 

- B C A C A 8 C A 88- 
Podemos considerar três estratos, determinados pela variável X 2 : 

P t = {3, 5, 8}, P B = {1, 6, 9,10}, P c = {2, 4, 7}. 

Um dos objetivos da estratificação é homogeneizar a variância dentro de cada estra¬ 
to, relativamente à principal variável de interesse. 

(c) AmostragemAleatóría por Conglomerados. Como no item (b), a população é dividida em grupos 
(subpopulações) distintos, chamados conglomerados. Por exemplo, podemos dividir uma 
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cidade em bairros ou quadras. Usamos AAS para selecionar uma amostra de conglomera¬ 
dos e depois todos os indivíduos dos conglomerados selecionados são analisados. 

(d) Amostragem em Dois Estágios. A população é dividida em grupos, como em (c). Num 
primeiro estágio, através de AAS, selecionamos algumas subpopulações. Num se¬ 
gundo estágio, usando novamente AAS, retiramos amostras das subpopulações 
selecionadas na primeiro estágio. 

(e) Amostragem Sistemática. Nesse plano, supõe-se que temos uma listagem das unidades 
populacionais. Para k fixado, sorteamos um elemento entre os k primeiros da listagem. 
Depois observamos, sistematicamente, indivíduos separados porF unidades. Por exem¬ 
plo, se k - 10 e sorteamos o oitavo elemento, observamos depois o décimo oitavo, 
vigésimo oitavo etc. 

38. Distribuição do máximo de uma amostra. Considere M o máximo de uma AASX 1( ..., X„, 
escolhida de uma população com densidade f(x) e f.d.a. F(x). Seja F M (m) a f.d.a. de M . 
Então, F M (m) = P(M =s m). Agora, o evento {M m} é equivalente ao evento {X, m, para 
todo 1 =£ / =£ n}. Como as v.a. X ( são independentes, teremos 

F M (m)=P(M ^m)=P(X 1 ^m,...,X n ^m)=P(X 1 ^m) ...P(X„^m)=[F (m)]". 
Portanto, a densidade de M é dada por 

fJm)=F„ (m)=n[F(m)] n - 1 f(m). 

39. Obtenha a densidade de M para o caso de uma amostra de uma distribuição uniforme no 
intervalo (0, 0). 

40. Suponha que temos a população X ~ N (167; 25). Gere 100 amostras de tamanho 5 
dessa população, usando algum programa de geração de valores de uma distribuição 
normal, como o Excel ou Minitab. 

(a) Esboce a distribuição amostrai de X (histograma) e calcule as principais medidas- 
resumo; faça boxplots e ramos-e-folhas. 

(b) Mesma questão para md = mediana da amostra. 

(c) Compare as duas distribuições, ressaltando as principais diferenças. 

(d) Estude a distribuição da estatística "variância da amostra". 

41 . Tamanho de uma amostra. Na prática, não conhecemos a distribuição de v.a. X e retira¬ 

mos uma amostra a fim de estimar algum parâmetro dessa distribuição. Suponha, agora, 
que nosso interesse esteja na média /u -EiX). Para estimá-la, colhemos uma amostra X 1; 
X 2 .X„deX. Logo, as v.a. X, são independentes, cada uma delas tem a mesma distribui¬ 

ção que X e E(X,) = /j., V/ =1, ..., n. Para estimar /u consideramos a média amostrai X. 

Um problema que se apresenta é determinar o tamanho da amostra a colher. Isso pode 
ser feito usando a TLC, como vimos na seção 10.11. 

Agora, vamos ver um procedimento diferente, também baseado no TLC, mas que envolve 
uma regra de parada para determinar o número de dados a colher. Esse procedimento foi 
sugerido por Ross (1997). Pelo TLC podemos escrever 

P(\x-fi\ >ccr/Vn)«P(|Z|>c)=2[l-0(c)], (10.9) 

para qualquer constante C > 0, onde Z ~ A/(0, 1) e O(-) denota a f.d.a. de Z. Por 
exemplo, se C = 1,96, a probabilidade acima é 0,05. 
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Suponha que, em vez de colher uma pequena amostra piloto para estimar a, tenhamos 
informação suficiente para escolher um valor aceitável, digamos d, para o desvio padrão 
de X, que é dado por cr/Vn. 

Por (10.9), podemos escrever, por exemplo, 


P( |X - ,ul =s l,96d) ~ 0,95. 

Segue-se que podemos amostrar seqüencialmente de X até que S/SÍT< d, em que calcu¬ 
lamos S com os valores até então escolhidos. 

O seguinte algoritmo pode, então, ser adotado: 

(1) Escolha um valor aceitável d para cW7) . 

(2) Gere pelo menos 30 dados (para obter uma estimativa razoável de cr). 

(3) Continue a gerar dados, parando quando, com n dados, S/aÍT< d, com 

S 2 = X(X, - X)7(n- 1). 


(4) Estime p por X = ^X,/n. 

Esse método implica podermos calcular X e S 2 recursivamente. Isso pode ser feito por meio 
das seguintes fórmulas, facilmente verificáveis: 


X, 


=4-ZX., 

i i=i ' 




T/?i^ r 


Xy) 2 - 


i =* 2 , 


51 = 0, 
X 0 = 0, 


*i + i=X,+ 


X i+ 1- Xj 

i +1 


s/ +1 = ( 1- -y-jSj + (j + 1)(X J+1 - X ; ) 2 . 

Suponha Xj = 3, x 2 = 5, x 3 = 2, x 4 = 6, x 5 = 4. Então, usando as fórmulas acima, obte¬ 
nha, recursivamente, X„ S 2 , / = 1, 2, 3, 4, 5. 

42. Suponha uma população P = {1, 2, ..., A/} e a v.a. X definida sobre P. Então, 
T = Zf =1 X, é chamado total populacional. A média populacional é /J = T/N e a variância 
populacional é a 2 = Y!i=\(X- t - /u) 2 /N. Considere uma AAS de tamanho n extraída de 
PeX a média amostrai. Considere o estimador T = A/X. Mostre que E(T) =T e 
Var (f) =N 2 a 2 /n. 

43. Suponha que queiramos retirar uma amostra de uma distribuição de Bernoulli com 
parâmetro p. Escolhidos k dados x v x 2 ,..., x k/ temos que x k = XiXjk é um estimador de p. 
Então um estimador natural da variância <r 2 = p(l - p) da população é x k (l- x k ). Como 
ficaria o algoritmo descrito no Problema 41 para essa situação? 
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Estimação 


11.1 Primeiras Idéias 

Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre 
uma população, com base nos dados de uma amostra. Salientamos que dois proble¬ 
mas básicos nesse processo são: 

(a) estimação de parâmetros; e 

(b) teste de hipóteses sobre parâmetros. 

Lembremos que parâmetros são funções de valores populacionais, enquanto esta¬ 
tísticas são funções de valores amostrais. 

O problema do teste de hipóteses sobre parâmetros de uma população será tratado 
no Capítulo 12. Neste capítulo iremos discutir as idéias básicas sobre estimação. Para 
ilustrar, consideremos o exemplo seguinte. 


Exemplo 11.1. Uma amostra de n = 500 pessoas de uma cidade é escolhida, e a cada 
pessoa da amostra é feita uma pergunta a respeito de um problema municipal, para o 
qual foi apresentada uma solução pela prefeitura. A resposta à pergunta poderá ser 
SIM (favorável à solução) ou NÃO (contrária à solução). Deseja-se estimar a propor¬ 
ção de pessoas na cidade favoráveis à solução apresentada. 

Se 300 pessoas responderam SIM à pergunta, então uma estimativa natural para essa 
proporção seria 300/500 ou 60%. Nossa resposta é baseada na suposição de que a amos¬ 
tra é representativa da população. Sabemos, também, que outra amostra poderia levar a 
outra estimativa. Conhecer as propriedades desses estimadores é um dos propósitos mais 
importantes da Inferência Estatística. Vejamos o que pode ser feito nesse caso particular. 

Definamos as v.a. X v ..., X n , tais que: 



1, se a i-ésima pessoa na amostra responder SIM, 
0, se a i-ésima pessoa na amostra responder NÃO, 


e seja p = P (sucesso), onde aqui sucesso significa resposta SIM à questão formulada. 
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Portanto, se Y n = 'Z" = iX /f sabemos que y n tem distribuição binomial com parâmetros 
n e p, e o problema consiste em estimar p. É claro que Y n representa o número de 
pessoas na amostra que responderam SIM; portanto, um possível estimador de p é 


Y n Z"=i Xi _ número de SIM 

' D D r\ m ky-\ r\rr\ /-J r\ i r\ r) i \ / f /-J 


( 11 . 1 ) 


n n número de indivíduos ' 


Então, se Y n = k, isto é, observarmos o valor k da variável obteremos p = k/n como 
uma estimativa de p. Observe que p, dado por (11.1), é uma v.a., ao passo que k/n é um 
número, ou seja, um valor da v.a. No exemplo acima, uma estimativa é 0,6 ou 60%. 

O estimador p teve sua distribuição amostrai estudada na seção 10.9. De lá pode¬ 
mos concluir que p tem distribuição aproximadamente normal, com parâmetros: 


E (p) = p, 

Var(p) = p(l - p)/n. 


( 11 . 2 ) 

(11.3) 


Esses resultados nos ajudam a avaliar as qualidades desse estimador. Por exemplo, o 
resultado (11.2) indica que o estimador p, em média, "acerta" p. Dizemos que p é um 
estimador não-viesado (ou não-viciado) de p. Ou ainda, o resultado (11.3) indica que para 
amostras grandes, a diferença entre p e p tende a ser pequena, pois para n -> °°, Var(p) -► 0. 
Nesse caso, dizemos que p é um estimador consistente de p. Observe que essas proprieda¬ 
des são válidas para o estimador no conjunto de todas as amostras que poderiam ser extraídas 
da população. Para uma particular amostra, p pode estar distante de p. 

Em algumas situações, podemos ter mais de um estimador para um mesmo 
parâmetro, e desejamos saber qual deles é "melhor". O julgamento pode ser feito 
analisando as propriedades desses estimadores. Vejamos um exemplo. 

Exemplo 11.2. Desejamos comprar um rifle e, após algumas seleções, restaram quatro 
alternativas, que chamaremos de rifles A, B, C e D. Foi feito um teste com cada rifle, 
que consistiu em fixá-lo num cavalete, mirar o centro de um alvo e disparar 15 tiros. 
Os resultados estão ilustrados na Figura 11.1. 

Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo, segundo 
o critério de "em média acertar o alvo", escolheríamos as armas A e C. Segundo o 
critério de "não ser muito dispersivo" (variância pequena), a escolha recairia nas 
armas C e D. A arma C é aquela que reúne as duas propriedades e, segundo esses 
critérios, seria a melhor arma. Mas, se outro critério fosse introduzido (por exemplo, 
menor preço), talvez não fosse a arma escolhida. M uitas vezes, a solução deve ser 
um compromisso entre as propriedades. 

Esse exemplo também nos permite introduzir os conceitos de acurácia e preci¬ 
são.A acurada mede a proximidade de cada observação do valor alvo que se 
procura atingir. A precisão mede a proximidade de cada observação da média de 
todas as observações. 
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Figura 11.1: Resultados de 15 tiros dados por 4 rifles. 



Desse modo, podemos descrever cada arma da seguinte maneira: 

Arma A: não-viesada, pouco acurada e baixa precisão. 

Arma B: viesada, pouco acurada e baixa precisão. 

Arma C: não-viesada, muito acurada e boa precisão. 

Arma D: viesada, pouco acurada e alta precisão. 

Do exposto acima, notamos a importância de se definir propriedades desejáveis 
para estimadores. Trataremos desse assunto na próxima seção. Outro problema que 
aparece em inferência é como obter um estimador de determinado parâmetro. Nem 
sempre temos uma sugestão para um estimador, como no caso da proporção, no Exem¬ 
plo 11.1. Nas seções 11.3, 11.4 e 11.5 trataremos de três desses métodos. 

11.2 Propriedades de Estimadores 

Inicialmente vejamos a questão da estimação de um modo mais geral. Considere¬ 
mos uma amostra (X 1( X 2 , ..., Xj de uma v.a. que descreve uma característica de inte¬ 
resse de uma população. Seja d um parâmetro que desejamos estimar, como por exem¬ 
plo a média jj. = E(X ) ou a variância <r 2 = Var(X). 

Definição. Um estimador T do parâmetro d é qualquer função das observações da 
amostra, ou seja, T = g(X v ..., X n ). 

Notemos que, segundo essa definição, um estimador é o que chamamos antes de 
estatística, porém associando-o a um parâmetro populacional. 
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O problema da estimação é, então, determinar uma função T = g(X v X 2 ..., X n ) que seja 
"próxima" de 9, segundo algum critério. O primeiro critério que iremos abordar é dado a seguir. 

Definição. O estimador T é não-viesado para 9 se 

E(T)=9, (11.4) 

para todo 9. 

Se (11.4) não valer T diz-se viesado e a diferença V(T) = E(T) - 9 é chamado o 
viés de T. 

Notemos que a esperança de T em (11.4) é calculada sobre a distribuição amostrai 
de T, como tratada no capítulo anterior. 

Definição. Estimativa é o valor assumido pelo estimador em uma particular amostra. 
Assim, no Exemplo 11.1, p é um estimador de p, enquanto 60% é uma estimativa de p. 

Exemplo 11.3 Vimos que a média amostrai X é um estimador não-viesado de /u = 

E(X), colhida uma amostra (X 1 . XJ da v.a. X. Do mesmo modo, como vimos na 

seção 10.9, a proporção amostrai p é um estimador não-viesado da proporção p de 
indivíduos de uma população que tem certa característica comum. 

Exemplo 11.4. Considere uma população com N elementos e a variância populacional 

o 2 = Y Í(X, - p) 2 , (11.5) 

onde iu = -^-Sf =1 X ( é a média populacional. Um possível estimador para a 2 , baseado numa 
AAS de tamanho n extraída dessa população, é 

j í (X, - X ) 2 . (11.6) 

M ostremos que esse estimador é viesado. Pela fórmula (3.11), temos que 

Ó 2 = ±±X 2 -X 2 , 

li i =1 

logo 

E(<7 2 ) =\ÍE[X 2 ) - E(X 2 ). 

11 i =1 


Mas, pela definição de AAS e definição de variância de uma v.a., E(X 2 ) =Var(X ; ) + 
[E(X ; .)] 2 = a 2 + ju 2 . Também, usando o Teorema 10.1, temos que E(X 2 ) =Var(X) + 
[E(X)Y = Ç + ^ 
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Seque-se que 



ou seja, 



Final mente, 



(11.7) 


De (11.7) vemos que ó 2 é viesado para cr 2 e o viés é dado por 


V = V[ó 2 ) =£(<?) - a 2 = - ^ 


( 11 . 8 ) 


Como esse viés é negativo, o estimador ó 2 em geral subestima o verdadeiro 
parâmetro cr 2 . Por outro lado, por (11.8), o viés diminui com n, ou seja, formalmente, 
para n ->• °°, o viés de o 2 tende a zero. Note também que o viés de ô 2 é uma função de 
cr 2 . Uma estimativa do viés seria dada por 



ou seja, substituímos o valor desconhecido de a 2 por uma estimativa, como por exemplo cr 2 . 

É fácil ver que para obter um estimador não-viesado de a 2 basta considerar (n/(n- 
lpp 2 , pois de (11.7) segue-se que 



Logo, se definirmos 



(11.9) 


então E(9) = a 2 e 9 é um estimador não-viesado para <r 2 . Essa é a razão para se usar n - 1, 
em vez de n, como denominador da variância da amostra. No Capítulo 3 usamos sempre 
ncomo denominador, porque não havia preocupação em saber se estávamos trabalhando 
com uma população ou uma amostra. Daqui por diante, será feita essa distinção. 

Vimos que o estimador pé não-viesado e tem variância que tende a zero, quando 
oo. Ver (11.2) e (11.3). Dizemos que pé consistente. Esse conceito de consistência é um 
pouco mais difícil de se definir. Vejamos um exemplo para motivar a definição que será dada. 

Considere a média X calculada para diversos tamanhos de amostras; obtemos, na 
realidade, uma seqüência de estimadores {X r , n = 1, 2,...}. À medida que n cresce, a 
distribuição de X n torna-se mais concentrada ao redor da verdadeira média /u. Veja, 
por exemplo, a Figura 10.4 do Capítulo 10. Dizemos que {XJ é uma seqüência con¬ 
sistente de estimadores de /u. 
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Definição. Uma seqüência {7J de estimadores de um parâmetro 9 é consistente se, 
para todo e > 0, 

P{\T n - 9\ >£} -> 0, n-> oo. (11.10) 

Não é muito difícil ver que essa condição está satisfeita para {XJ. Veja o Problema 34. 
Em vez de usar (11.10) para verificar se uma seqüência de estimadores é consis¬ 
tente, podemos usar o seguinte resultado. 

Proposição, Uma seqüência {T n } de estimadores de 9 é consistente se 

Nm E(T n ) =9 (11.11) 

e 

lim Var(7 n ) =0. (11.12) 

n-> oo 

Se 7 n for não-viesado, a primeira condição estará, obviamente, satisfeita. Usando 
esse resultado, vemos que p e X n são estimadores consistentes de p e p, respectiva¬ 
mente, nos Exemplos 11.1 e 11.3. 

Exemplo 11.5. Vimos que S 2 , dado por (11.9), é não-viesado para cr 2 . É possível 
demonstrar, no caso queX 1( ..., X n são observações de uma distribuição A/(p, <r 2 ), que 

VarjS 2 ) = (11.13) 

n- 1 

Como E(9) = o 2 , e lim^VarjS 2 ) = 0, segue-se que S 2 é um estimador consistente 
para o 2 . Dado o que foi dito acima, talvez fosse melhor escrever S 2 n . 

Exemplo 11.6. Vimos que Eiô 2 ) = o 2 [ 1 - l/n), de modo que Nm Eiã 2 ) = a 2 . Também, de 
(11.6) e (11.13) e supondo que as observações são de uma distribuição normal N(/u, o 2 ), 
temos que 


Var(<j 2 ) = Var(S 2 ) = (2cT 4 ), (11.14) 

o que mostra que Var(<j 2 ) -»• 0, quando n -> <», logo <r 2 = ó 2 também é consistente para o 2 . 

De (11.14) obtemos, também, que 

Varícr 2 ) < = Var(S 2 ). (11.15) 

Portanto, usando-se somente o critério de "ter menor variância", cf 2 seria um "me¬ 

lhor" estimador de o 2 . Mas observe que estamos nos referindo a amostras de uma 
distribuição normal. 

Vejamos agora um critério que nos permite escolher entre dois estimadores do 
mesmo parâmetro. 
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Definição. Se T eT' são dois estimadores não-viesados de um mesmo parâmetro 9, e ainda 

Var(T) <Var(T'), (11.16) 

então T diz-se mais eficiente do que T'. 

Exemplo 11.7. Consideremos uma população normal X, com parâmetros /u e o 2 . 
Queremos estimar a mediana dessa população. Por ser uma distribuição simétrica, 
sabemos que ^ = Md(X). Definindo como X a média e como md a mediana de uma 
amostra de tamanho n dessa população, qual dos dois estimadores é o melhor para 
estimar a mediana populacional? 

Pelo que vimos no capítulo anterior, 

X ~ N(ju, a 2 In). (11.17) 

Pode-se demonstrar que a distribuição da mediana amostrai pode ser aproximada 
por uma normal, especificamente, 

md ~ NiMdiX ), Ko 2 l2n). (11.18) 

Vemos, portanto, que os dois estimadores são não-viesados, mas X é mais eficiente, pois 

Var(md)/Var(X) = nil > 1. 

Conclui-se que, para estimar a mediana dessa população, é preferível usar a média 
da amostra como estimador, o que contraria um pouco a nossa intuição. 

Para precisar o conceito de estimador acurado, discutido na seção anterior, vamos agora 
introduzir o conceito de erro quadrático médio. 

Chamemos de 


e = T - O, 

o erro amostrai que cometemos ao estimar o parâmetro O da distribuição da v.a. X pelo 
estimador T = g(X v ..., X n ), baseado na amostra [X v ..., X n ). 

Definição. Chama-se erro quadrático médio (EQM) do estimador T ao valor 

EQM (T; 9) = E (e 2 ) = E[T - 9) 2 . (11.19) 

De (11.19) temos 

EQM ( T ; 9) = E (T - E(T) +E(T) - 9) 2 

= E(T-E(T)) 2 +2E[(T-E(T))(E(T)- 9)]+E(E{T)~ 9) 2 
= E(T - E (T )) 2 + E(E(T) - 9) 2 , 

já que E(7) - 9é uma constante e E(T - E(T)) =0. Podemos, pois, escrever, 

EQM (T; 9) =Var(I) +1/ 2 , (11.20) 

onde 1/ =V(T) = E(T) - 9 indica, como vimos, o viés de T. A Figura 11.2 ilustra essas 
duas medidas, usando o caso das armas discutido no Exemplo 11.2. 
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Vemos, portanto, que um estimador preciso tem variância pequena, mas pode ter 
EQM grande. 

Figura 11.2: Representação gráfica 
para o EQM. 



1 . Obtenha a distribuição depquando p -0,2 e n = 5. Depois calcule E(p) e Var(p). 

2. Encontre um limite superior para Var(p) quando n = 10, 25,100 e 400. Faça o gráfico em 
cada caso. 

3. Suponha um experimento consistindo de n provas de Bernoulli, com probabilidade de 
sucesso p. Se|a X o número de sucessos, e considere os estimadores 


(a) Pj = X /n; 


(b) p — I 1' se a primeira prova resultar sucesso, 
2 [0, caso contrário. 


Determine a esperança e a variância de cada estimador. Por que p 2 não é ur 
"bom" estimador? 


4. Verifique se p 1 e p 2 do Problema 3 são consistentes. 

5. Tem-se duas fórmulas distintas para estimar um parâmetro populacional 6. Para ajudar a 
escolher o melhor, simulou-se uma situação onde 6 = 100. Dessa população retiraram-se 
1.000 amostras de dez unidades cada uma, e aplicaram-se ambas as fórmulas às dez 
unidades de cada amostra. Desse modo obtêm-se 1.000 valores para a primeira fórmula 

e outros 1.000 valores para a segunda fórmula t 2 , cujos estudos descritivos estão resumidos 
abaixo. Qual das duas fórmulas você acha mais conveniente para estimar 0. Por quê? 


Fórmula 1 

Fórmula 2 

CN 

O 

II 

II 

O 

o 

Var(f,) = 5 

Var(f 2 ) = 10 

Mediana = 100 

Mediana = 100 

Moda = 98 

Moda =100 
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11.3 Estimadores de Momentos 

Neste capítulo e em anteriores, temos usado certos estimadores de parâmetros populacionais, 
como a média e a variância, simplesmente^tentando "imitar" na amostra o que acontece na 
população. Foi assim que construímos X, por exemplo. 

A média populacional é um caso particular daquilo que chamamos de momento. 
Na realidade, ela é o primeiro momento. Se X for uma v.a. contínua, com densidade 
f(x; e v ..., 9 r ), dependendo de r parâmetros, então 

^ =E(X) = £xf(x; 6 1 . 6 r )dx. (11.21) 

Essa média dependerá, genericamente, dos parâmetros desconhecidos 6 1 ,...,6 r . 
Por exemplo, suponha que X tenha distribuição normal, com parâmetros /a e cr 2 . Aqui, 
6 l = /x, d 2 = cr 2 e r = 2. Temos, nesse caso, que E(X) = /a. 

Podemos, em geral, definir o k-ésimo momento de X por 

M k =E(X k ) = /Vf(x; 0 1 . 9 r )dx, k = 1, 2, ... (11.22) 

Assim, para k = 2, obtemos o segundo momento 

E (X 2 ) = /„x 2 f(x; 6 V ..., 6 r )dx. 

No caso acima da normal, temos que E(X 2 ) = Var(X) + [E(X)] 2 = cr 2 + /j 2 . Suponha, 
agora, que colhemos uma amostra de tamanho n da população (X 1( ..., X n ). Definimos 
o chamado k-ésimo momento amostrai por 

m k = ±txf, k = 1,2,... (11.23) 

k n j = i 

Temos, portanto, que m 1 = X e m 2 = Z i= iX 2 /n. 

Definição Dizemos que Ô v ..., 0 r são estimadores obtidos pelo método dos momentos 
se eles forem soluções das equações 

m k =pi k , k = 1,2. r. (11.24) 

O procedimento consiste em substituir os momentos teóricos pelos respectivos 
momentos amostrais. 

Exemplo 11.8, Se X ~ N(/u, cr 2 ), teremos as seguintes relações válidas para os dois 
primeiros momentos populacionais: 

E (X) = /i, E(X 2 ) = cr 2 + ju 2 , 


do que obtemos 


ju=E(X), cr 2 =E(X 2 ) - E 2 (X). 
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Temos, também, os dois primeiros momentos amostrais: 

Os estimadores obtidos pelo método dos momentos serão 

Pm = m i = 


= m, - m\ = -^-Ex? - X 2 = 


n i 


o 2 . 


Ou seja, obtemos os já mencionados estimadores X e d 2 . 

Na realidade, podemos ter, às vezes, mais de um estimador de momentos. Suponha, 
por exemplo, que a v.a. Y tenha uma distribuição de Poisson com[ parâmetro X > 0. Vimos 
que E(Y) = VarÇX) = A, de modo que X pode ser estimado porX ou por E"=i (Y i - Y ) 2 ln, 
ou seja, X M =X ou X M = â 2 , que podem resultar em valores muito diferentes. Veja o 
Problema 46. 


11.4 Estimadores de Mínimos Quadrados 

Um dos procedimentos mais usados para obter estimadores é aquele que se baseia 
no princípio dos mínimos quadrados, introduzido por Gauss em 1794, mas que pri¬ 
meiro apareceu com esse nome no apêndice do tratado de Legendre, Nouvettes Méthodes 
pour la Determination des Orbites des Comètes, publicado em Paris em 1806. Gauss 
somente viria a publicar seus resultados em 1809, em Hamburgo. Ambos utilizaram o 
princípio em conexão com problemas de Astronomia e Física. 

Vejamos o procedimento por meio de um exemplo simples. 


Exemplo 11.9. Um engenheiro está estudando a resistência Y de uma fibra em função 
de seu diâmetro X e notou que as variáveis são aproximadamente proporcionais, isto 
é, elas obedecem à relação 

Y~OX, (11.25) 

onde 6 é o coeficiente de proporcionalidade. Agora ele deseja estimar o parâmetro 6, 
baseado numa amostra de cinco unidades, que, submetidas a mensuração e testes, 
produziram os resultados: 

X : 1,2 1,5 1,7 2,0 2,6, X = 1,8; 

Y : 3,9 4,7 5,6 5,8 7,0, Y = 5,4. 

Inspecionando os resultados, conclui-se que Q = 3 parece ser um valor razoável. Como 
verificar a qualidade dessa estimativa? Podemos utilizar o modelo Y = 3X e ver como esse 
prevê os valores de Y, para os dados valores de X, e como são as discrepâncias entre os 
valores observados e os estimados pelo modelo. Essa análise está resumida na Tabela 11.1. 
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Os valores da coluna (Y - 3X) medem a inadequação do modelo para cada observação 
da amostra, enquanto o valor - 3X i ) 2 = 1,06 é uma tentativa de medir "o erro quadrático 
total da amostra". Como em situações anteriores, elevou-se ao quadrado para evitar o proble¬ 
ma do sinal. Quanto menor for o erro quadrático total, melhor será a estimativa. Isso nos 
sugere procurar a estimativa que torne mínima essa soma de quadrados. Matematicamente, o 
problema passa a ser o de encontrar o valor de O que minimize a função 

S(9)=Í(V «*,)’. (11.26) 

Tabela 11.1: Análise do modelo Y = 3X. 


X 

Y 

3X 

Y - 3X 

[Y - 3X) 2 

1,2 

3,9 

3,6 

0,3 

0,09 

1,5 

4,7 

4,5 

0,2 

0,04 

1,7 

5,6 

5,1 

0,5 

0,25 

2,0 

5,8 

6,0 

-0,2 

0,04 

2,6 

7,0 

7,8 

0,8 

0,64 

Total 

0 

1,06 


O mínimo da função é obtido derivando-a em relação a 9, e igualando o resultado 
a zero (Ver Morettin et ai., 2005), o que resulta 

=t(Y,~ êX,)(-2X,) = 0. 

d 9 /=! 

Resolvendo essa equação, obtemos 


Usando os dados acima encontramos ê MQ = 2,94, que conduz a um valor mínimo 
para S(0) de 0,94. Observe que esse valor é realmente menor do que o observado para 
9 = 3, ou seja, 1,06. 

Como foi dito, não esperávamos uma relação perfeita entre as duas variáveis, já 
que o diâmetro da fibra não é o único responsável pela resistência; outros fatores não 
controlados afetam o resultado. Desse modo, duas amostras obtidas do mesmo diâme¬ 
tro X não teriam obrigatoriamente que apresentar o mesmo resultado Y, mas valores em 
torno de um valor esperado 9X. 

Em outras palavras, estamos supondo que, para um dado valor da variável explicativa 
X, os valores da variável resposta Y seguem uma distribuição de probabilidade f Y (y), 
centrada em 9X. Isso equivale a afirmar que, para cada X, o desvio e = Y - 6X segue 
uma distribuição centrada no zero. Para melhor entendimento dessa proposição, veja 
o Capítulo 16. Podemos, então, escrever 

E (Y | x) = 9x, para todo valor x. 
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É comum supor que e tem a mesma distribuição, para todo valor x da variável explicativa 
X. Desse modo, é comum escrever 

Y = 9x +e, 

com e seguindo a distribuição f(.), com média zero. Como ilustração, poderíamos 
supor que e ~ N(0, a 2 ), para todo x. Quanto menor for a variância o 2 , melhor será a 
"previsão" de Y como função de x. Assim, parece razoável escolher 9 que torna míni¬ 
ma a soma dos quadrados do erros: 

í £} = í {Y, - 9X i ) 2 . 

i=i /=i 1 1 

O modelo acima pode ser generalizado, de modo a envolver outras funções do 
parâmetro 9, resultando no modelo 

Y=g(X\9)+£, (11.27) 

e devemos procurar o valor de 9 que minimize a função 

S(9) =t£j = l(Y i -g(X- 9)) 2 , (11.28) 

/ =i i=i 

para uma amostra (X 1( Yj), ..., (X n , Y n ) das variáveis X e Y. A solução 9 MQ é chamada de 
estimador de mínimos quadrados (EMQ) de 9. 

Nos Capítulos 15 e 16 voltaremos a esse tópico e trataremos com mais detalhes os 
chamados modelos lineares. 


emas 


6. Estamos estudando o modelo y t = fi + £ t , para o qual uma amostra de cinco elementos 
produziu os seguintes valores para y t : 3, 5, 6, 8,16. 

(a) Calcule os valores de S[/u) =X t (y t _ n) 2 , para jj. =6, 7, 8, 9,10, e faça o gráfico de S[/j) 
em relação a n. Qual o valor de /u que parece tornar mínimo S(/u)? 

(b) Derivando S(/u) em relação a /t, e igualando o resultado a zero, você encontrará o 
EMQ de /J.. Usando os dados acima, encontre a estimativa para n e compare com 
o resultado do item anterior. 


7. Os dados abaixo referem-se ao índice de inflação (y t ) de 1967 a 1979. 


Ano(t) 

1967 

1969 

1971 

1973 

1975 

1977 

1979 

Inflação (y t ) 

128 

192 

277 

373 

613 

1.236 

2.639 


(a) Faça o gráfico de y t contra t. 

(b) Considere ajustar o modelo y t = a + pt + £ t aos dados. Encontre as estimativas de 
mínimos quadrados de ae/3. 

(c) Qual seria a inflação em 1981? 

(d) Você teria alguma restrição em adotar o modelo linear nesse caso? 
















308 


CAPÍTULO II — ESTIMAÇÃO 


8. No Problema 7, determinamos os estimadores de mínimos quadrados para o modelo 
y t = f(t ) + e t , no qual f(t) = a+ fit. Suponha agora que 

f(t) = a + px t , t = 1. n, 

ou seja, temos n valores fixos x v X n de uma variável fixa (não-aleatória) X. Obtenha os 
EMQ de a e /3 para esse modelo. 


9. Aplique os resultados do Problema 8 para os dados a seguir: 


t 

i 

2 

3 

4 

5 

6 

7 

8 

9 

10 

x t 

1,5 

1,8 

1,6 

2,5 

4,0 

3,8 

4,5 

5,1 

6,5 

6,0 

y t 

66,8 

67,0 

66,9 

67,6 

68,9 

68,7 

69,3 

69,8 

71,0 

70,6 


11.5 Estimadores de Máxima Verossimilhança 

O Novo Dicionário Aurélio da Língua Portuguesa (2 a edição, 1986) define veros¬ 
símil (ou verossimilhante) aquilo que é semelhante à verdade, provável, e verossimi¬ 
lhança (ou verossimilidade, ou ainda verossimilitude), à qualidade ou caráter de 
verossímil. O que seria uma amostra verossímil? Seria uma amostra que fornecesse 
a melhor informação possível sobre um parâmetro de interesse da população, desco¬ 
nhecido, e que desejamos estimar. 

O princípio da verossimilhança afirma que devemos escolher aquele valor do 
parâmetro desconhecido que maximiza a probabilidade de obter a amostra particular 
observada, ou seja, o valor que torna aquela amostra a "mais provável". O uso desse 
princípio conduz a um método de estimação pelo qual se obtêm os chamados 
estimadores de máxima verossimilhança que, em geral, têm propriedades muito boas. 
Esse princípio foi enunciado por Fisher pela primeira vez em 1912 e, em 1922, deu-lhe 
forma mais completa, introduzindo a expressão "likelihood" (verossimilhança). Veja 
Fisher (1935) para mais detalhes. Vamos começar com um exemplo. 

Exemplo 11.10 Suponha que temos n provas de Bernoulli com P (sucesso) = p, 0 <p < 1 
e X = número de sucessos. Devemos tomar como estimador aquele valor de p que 
torna a amostra observada a mais provável de ocorrer. 

Suponha, por exemplo, que n = 3 e obtemos dois sucessos e um fracasso. A função 
de verossimilhança é 

L(p ) = P (2 sucessos e 1 fracasso) = p 2 (l - p). 

Maximizando essa função em relação a p, obtemos 


L'(p) = 2p(l - p) - p 2 = 0 => p(2 - 3p) = 0, 

do que seguem p = 0 ou p = 2/3. É fácil ver que o ponto máximo é p = 2/3, que é o 
estimador de máxima verossimilhança (EMV) de p. 
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De modo geral, o EMV do parâmetro p de uma distribuição binomial é 

p =JL. 

HWV ff 


(11.29) 


que é o estimador usado anteriormente no Exemplo 11.1. 

Para chegar a (11.29), observe que a função de verossimilhança nesse caso é 


L(p) =p x (1 - p) n -\ 


que é a probabilidade de se obter x sucessos e n - x fracassos. O máximo dessa função 
ocorre no mesmo ponto que Ap) = log e L(p). Denotando o logaritmo natural simples¬ 
mente por log, temos 


Ap) = x log p + (n - x) log(1 - p). 


Derivando e igualando a zero obtemos p MV = xln. 

O procedimento, pois, é obter a função de verossimilhança, que depende dos parâmetros 
desconhecidos e dos valores amostrais, e depois maximizar essa função ou o logaritmo 
dela, o que pode ser mais conveniente em determinadas situações. Chamando de L (9; X v 
..., XJ a função de verossimilhança, a log-verossimilhança será AO; X v ..., X n ) = 
= log e L(9;X 1 X). 

No caso de variáveis contínuas, a função de verossimilhança é definida da seguinte 
maneira. Suponha que a v.a. X tenha densidade f(x; 9), onde destacamos a dependência 
do parâmetro 9 desconhecido. Retiramos uma amostra de X, de tamanho n, (X v ..., X n ), 
e sejam (x 1( ..., x n ) os valores efetivamente observados. 

Definição. A função de verossimilhança é definida por 



(11.30) 


que deve ser encarada como uma função de 9. O estimador de máxima verossimilhança 
de 9é o valor § MV que maximiza L(9; x v ..., x n ). 

Se indicarmos por x= (x 1( ..., x n )' o vetor contendo a amostra, é costume denotar a 
verossimilhança por L(9\x) e a log-verossimilhança por A9\x). O parâmetro 9 pode 
ser um vetor, como no caso de querermos estimar a média /u e a variância cr 2 de uma 
normal. Nesse caso, 9 = (/u, cr 2 ) 1 . 

Exemplo 11.11. Suponha que a v.a. X tenha distribuição exponencial, com parâmetro 
a > 0, desconhecido, e queremos obter o EMV desse parâmetro. A densidade de X é 
dada por (7.26): 
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Então, a verossimilhança é dada por 

L (a\x) = (l/a) n e- J - Xila 

e a log-verossimilhança fica 

n 

£[a\x) = -n log a - £ x./a. 

1=1 ' 

Derivando e igualando a zero obtemos que o EM V de a é 

Ehx, (11.31) 

°W = — -- 

que nada mais é do que a média amostrai. Lembremos que na distribuição exponencial 
E(X) = a, e portanto o estimador obtido é o esperado pelo senso comum. 

No caso discreto, a função de verossimilhança pode ser escrita na forma 

L{9; x 1 .x n ) =P(X 1 =x 1 \9) ... P(X n = xj 9). 

Veja o Problema 37 para o caso de termos mais de um parâmetro. 


emas 


10. Na função de verossimilhança L (p) da binomial, suponha que n =5 e X = 3. Construa o 
gráfico da função para os possíveis valores de p = 1/5, 2/5, 3/5, 4/5, e verifique que o 
máximo ocorre realmente para p = 3/5. 

11. Observa-se uma seqüência de ensaios de Bernoulli, independentes, com parâmetro p, até 
a ocorrência do primeiro sucesso. SeX indicar o número de ensaios necessários: 

(a) Mostre que P(X =x) =(1 - p) xl p (distribuição geométrica). 

(b) Repetiu-se esse experimento n vezes, e em cada um deles o número de ensaios neces¬ 
sários foram x j; X 2 ,..., x . Encontre o EMV para p. 

(c) Usando uma moeda, repetiu-se esse experimento 5 vezes, e o número de ensaios 
necessários até a ocorrência da primeira coroa foi 2, 3, 1, 4, 1, respectivamente. 
Qual a estimativa de MV para p = probabilidade de ocorrência de coroa nessa 
moeda? Existiria outra maneira de estimar p? 

12. Suponha que X seja uma v.a. com distribuição normal, com média p e variância 1. 
Obtenha o EMV de ju, para uma amostra de tamanho íl, (x i: ..., X n ). 

13. Considere Y uma v.a. com distribuição de Poisson, com parâmetro X > 0. Obtenha a 
EMV de X, baseado numa amostra de tamanho n. 


11.6 Intervalos de Confiança 

Até agora, todos os estimadores apresentados foram pontuais, isto é, especificam um 
único valor para o estimador. Esse procedimento não permite julgar qual a possível 
magnitude do erro que estamos cometendo. Daí, surge a idéia de construir os intervalos 
de confiança, que são baseados na distribuição amostrai do estimador pontual. 
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Exemplo 11.12. Suponha que queiramos estimar a média n de uma população qual¬ 
quer, e para tanto usamos a média X de uma amostra de tamanho n. Do TLC, 

e = (X - n) ~ A/(0, a 2 ), (11.32) 

com Var(X) = a\ = o 2 ln . Daqui podemos determinar qual a probabilidade de cometer¬ 
mos erros de determinadas magnitudes. Por exemplo, 


P (le|< 1,96a,) = 0,95 
ou 


que é equivalente a 


e, finalmente, 


P(\X - jul < 1,96a,) =0,95, 

P (- 1,96a, < X - ju < 1,96a,) = 0,95, 


P (X - 1,96a, < /a <X + 1,96a,) = 0,95. (11.33) 

Convém lembrar que /a não é uma variável aleatória e sim um parâmetro, e a 
expressão (11.33) deve ser interpretada da seguinte maneira: se pudéssemos cons¬ 
truir uma quantidade grande de intervalos (aleatórios!) da forma ]X - 1,96a,, X + 
l,96a,[, todos baseados em amostras de tamanho n, 95% deles conteriam o parâmetro 
/a. Veja a Figura 11.3. Dizemos que y= 0,95 é o coeficiente de confiança. Nessa 
figura estão esquematizados o funcionamento e o significado de um intervalo de 
confiança (IC) para /a, com y= 0,95 e a 2 conhecido. 


Figura 11.3: Significado de um IC para /j, com y= 0,95 e a 2 conhecido. 
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Escolhida uma amostra e encontrada sua média x 0 , e admitindo-se o y conhecido, 
podemos construir o intervalo 

]x 0 - 1,96o, ,x 0 + 1,96 ol[. (11.34) 

Esse intervalo pode ou não conter o parâmetro n, mas pelo exposto acima temos 
95% de confiança de que contenha. 

Para ilustrar o que foi dito acima, consideremos o seguinte experimento de simula¬ 
ção. Geramos 20 amostras de tamanho n = 25 de uma distribuição normal de média /u 
= 5 e desvio padrão <7 = 3. Para cada amostra construímos o intervalo de confiança 
para n, com coeficiente de confiança y = 0,95, que é da forma X ± 1,176, usando 
(11.34). Na Figura 11.4, temos esses intervalos representados e notamos que três deles 
(amostras de números 5, 14 e 15) não contêm a média n = 5. 

Figura 11 A Intervalos de confiança para a média de uma 
N (5,9), para 20 amostras de tamanho n = 25. 
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6 

L 1 = 5 
4 

2 


O 2 4 6 8 10 12 14 16 18 20 

Amostras 


Exemplo 11.13. Uma máquina enche pacotes de café com uma variância igual a 100 g 2 . 
Ela estava regulada para encher os pacotes com 500 g, em média. Agora, ela se 
desregulou, e queremos saber qual a nova média /u. Uma amostra de 25 pacotes apre¬ 
sentou uma média igual a 485 g. Vamos construir um intervalo de confiança com 95% 
de confiança para /i. De (11.34), teremos 

IC(ju; 0,95) = 485 ± 1,96 x 2, 


ou seja, 

IC(ju; 0,95) = ]481, 489[, 

pois <7, = (7/Vff = 10/5 = 2g. 

Se T for um estimador do parâmetro d, e conhecida a distribuição amostrai de T, 
sempre será possível achar dois valores ^ e t 2 , tais que 

P(t 1 <e< y = y, 


(11.35) 
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a probabilidade interpretada como em (11.33), e y um valor fixo, 0 < y< 1. Para uma 
dada amostra, teremos dois valores fixos para t L e t 2 , e o intervalo de confiança para 0, 
com coeficiente de confiança y, será indicado do seguinte modo: 


IC(0; y) =}t v t 2 [. 


(11.36) 


Se a variância populacional a 2 não for conhecida, podemos substituir em (11.34) o 7 
por S/V7f, onde S 2 é a variância amostrai dada em (11.9). Para n grande, da ordem de 100, 
o intervalo (11.34), com essa modificação, pode ainda ser usado. Para n não muito grande, 
a distribuição normal não pode mais ser usada e terá de ser substituída pela distribuição t de 
Student, que estudamos no Capítulo 7. Esse assunto voltará a ser abordado no Capítulo 12. 

Para um coeficiente de confiança qualquer y, teremos de usar o valor z(y) tal que 
P(-z(y) <Z <z(y)) = y, com Z ~ N(0, 1). O intervalo fica 


1 C(ju; y) = ]X - z(y)<J x ; X + z(y)a K [. 


(11.37) 


Observe, também, que a amplitude do intervalo (11.37) é L = 2z(y)o/Vm que é uma 
constante, independente de X. Se construirmos vários intervalos de confiança para o mes¬ 
mo valor de n, a e y estes terão extremos aleatórios, mas todos terão a mesma amplitude L. 

Exemplo 11.14. Vamos obter um intervalo de confiança para o parâmetro p de uma 
distribuição b(n, p). Sabemos que se X = número de sucessos nas n provas, então X 
tem distribuição aproximadamente normal, com média ju = np e variância <r 2 = npq, 
com q =1 - p. Logo, 


Z = ^^Er~ A/(0, 1), 


V npq 


ou ainda, 


Vp Q/n Vpq 

Assim, se y = 0,95, temos, consultando a Tabela III, que 

P (-1,96 ss Z ^ 1,96) = 0,95, 


z = = _ W(0i 1). 


(11.38) 


ou seja, 



Portanto, com probabilidade 0,95, temos que 


-1,96 V pq/n p - p *s 1,96 V pq/n, 


do que segue 


p - 1,96 V pq/n *£ p p + 1,96 V pq/n. 
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Como não conhecemos p, pode mos proceder de duas maneiras. Uma é usar o fato 
que pq 1 / 4 , de modo que Vpq/n « 1/V 4n, obtendo 


P ~ 


1,96 

V4n 


P «P 


+ _L96 
V4n 


(11.39) 


Temos, então, que ]p - 1,96/V4n; p + 1,96/V4n[ é um intervalo de confiança para 
p, com coeficiente de confiança de 95%. 

Para um /qualquer, 0 < 7 < 1, (11.39) fica 


P - 


zjjj 

V4n 


P «P + 


zjy) 

V4n 


(11.40) 


onde z(y) é definido como em (11.37). 


Exemplo 11.15, Numa pesquisa de mercado, n = 400 pessoas foram entrevistadas 
sobre determinado produto, e 60% delas preferiram a marca A. Aqui, p = 0,6 e um 
intervalo de confiança para p com coeficiente de confiança 7 = 0,95 será 

0,6 ± (1,96) 1/V16ÕÕ = 0,6 ± 0,049, 


ou seja 


IC(p; 0,95) = ]0,551; 0,649[. 

O intervalo (11.40) é chamado conservador, pois se p não for igual a 1/2 e estiver 
próximo de zero ou de um, então ele fornece um intervalo desnecessariamente maior, 
porque substituímos pq pelo seu valor máximo, 1/4. Uma outra maneira de proceder é 
substituir pq por pq, com q = 1 - p, sendo p 0 estimador de máxima verossimilhança 
de p, por exemplo. O intervalo obtido fica 

p - z( 7 )V pqln ss p ss p + ziyjdjtf/n, (11.41) 

com z( 7 ) definido como em (11.40). 


Exemplo 11.16. Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter 
um intervalo de confiança para p com 7 = 0,90. Como p = 80/400 = 0,2 e q = 1 - p = 0,8, 
então (11.41) fica 

0,2 ± (1,645)V (0,2)(0,8)/400 = 0,2 ± 0,033, 


ou seja, 


IC(p; 0,90) = ]0,167; 0,233[. 
Usando (11.40) 0 intervalo conservador é 


IC(p; 0,90) = ]0,159; 0,241[. 
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Observe que o primeiro intervalo tem amplitude menor que o segundo. Outra observação 
importante é que por (11.40) e um y fixo, os intervalos que podemos obter para amostras 
diferentes (mas de mesmo tamanho n) terão a mesma amplitude, dada por 2z(y)/V4n. 

Por outro lado, usando (11.41), a amplitude do intervalo será 2z(y) l^L, que é variável de 

amostra para amostra, pois p (e, conseqüentemente, q) variará de amostra para amostra. 




emas 


14. Calcule o intervalo de confiança para a média de uma A/(ju, c 2 ) em cada um dos 
casos abaixo. 


Média 

Amostrai 

Tamanho 
da Amostra 

Desvio Padrão 
da População 

Coeficiente de 
Confiança 

170 cm 

100 

15 cm 

95% 

165 cm 

184 

30 cm 

85% 

180 cm 

225 

30 cm 

70% 


15. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 válvu¬ 
las, e obtém-se a vida média de 800 horas e o desvio padrão de 100 horas. 

(a) Qual o intervalo de confiança de 99% para a vida média da população? 

(b) Com que confiança dir-se-ia que a vida média é 800 ± 0,98? 

(c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 
800 ± 7,84? 

(Que suposições você fez para responder às questões acima?) 

16. Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença 
da média amostrai para a média da população, em valor absoluto, seja menor que 1, 
com coeficiente de confiança igual a: 

(a) 95% (b) 99% 

17. Uma população tem desvio padrão igual a 10. 

(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em 
estimara média seja superiora uma unidade? 

(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confiança, se 
x = 50? 

18. Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca A 
de detergente. Construir um intervalo de confiança para p = proporção das donas de 
casa que preferem A com c.c. y = 90%. 

19. Encontre os intervalos de confiança para p se k/n =0,3, com c.c. y = 0,95. Utilize os dois 
enfoques apontados na seção 11.6, com n =400. 

20. Antes de uma eleição, um determinado partido está interessado em estimar a proporção p 
de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou 
que 60% dos eleitores eram favoráveis ao candidato em questão. 
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(a) Determine o tamanho da amostra necessário para que o erro cometido na estimação 
seja de, no máximo, 0,01 com probabilidade de 80%. 

(b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos 
eleitores eram favoráveis ao candidato em questão, construa um intervalo de confiança 
para a proporção p. Utilize 7=0,95. 

21. Suponha que estejamos interessados em estimar a proporção de consumidores de um 
certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o 
dado produto, determine: 

(a) o intervalo de confiança para p, com coeficiente de confiança de 95% (interprete o 
resultado); 

(b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades 
com probabilidade de 95% (interprete o resultado). 


11.7 Erro Padrão de um Estimador 


Vimos que, obtida a distribuição amostrai de um estimador, podíamos calcular a 
sua variância. Se não pudermos obter a distribuição exata, usamos uma aproximação, 
se essa estiver disponível, como no caso de X, e a variânciajlo estimador será a variância 
dessa aproximação. Por exemplo, para a média amostrai X, obtida de uma amostra de 
tamanho n, temos que 

Var(X) =-£, 


na qual <r 2 é a variância da v.a. X definida sobre a população. 

À raiz quadrada dessa variância chamaremos de erro padrão deX e o denotaremos 
por 


EP(X) 


c 

dn 


(11.42) 


Definição Se T for um estimador do parâmetro 9, chamaremos de erro padrão de T a 
quantidade 

EP(T) = War(T). (11.43) 

A variância de T dependerá dos parâmetros da distribuição de X, o mesmo aconte¬ 
cendo com o erro padrão. Por exemplo, em (11.42), EP(X) depende de cr, que em geral 
é desconhecida. Podemos, então, obter o erro padrão estimado deX, dado por 

ep(X) =EP(X) =S/Vn, (11.44) 

na qual S 2 é a variância amostrai. Genericamente, o erro padrão estimado de T é dado por 

EP(T) =V\/ar(n. (11.45) 

Muitas vezes a quantidade (11.45) é chamada de erro amostrai. Mas preferimos 
chamar de erro amostrai à diferença e = T - 0. 
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Exemplo 11.17. Para o Exemplo 11.15, p = 0,6, e o erro padrão de p será dado por 



(11.46) 


Como não conhecemos p usamos no seu lugar o estimador p, obtendo-se 
ÉP(p) = V (0,6)(0,4)/400 = 0,025. 

Observe que o intervalo de confiança (11.41) pode ser escrito 

p± z(y)(ÉP(p)), 

ao passo que o intervalo para p dado por (11.37) pode ser escrito 

X ± (1,96)(EP(X)). 

11.8 Inferência Bayesiana 

O estabelecimento de uma ponte entre os valores observados na amostra e os mo¬ 
delos postulados para a população, objeto da inferência estatística, exige a adoção de 
princípios teóricos muito bem especificados. Neste livro usaremos a chamada teoria 
freqüentista (às vezes também chamada de clássica). Seus fundamentos encontram-se 
em trabalhos de j. Neyman, E. Pearson, R. Fisher e outros. 

Consideremos um exemplo para ilustrar esse enfoque. Suponha que tenhamos uma 
amostra observada (x 1( ..., x n ) de uma população normal, N(/j, o 2 ), e queremos fazer 
inferências sobre os valores de /u e o 2 , baseados nas n observações. 

Por meio de algum procedimento estudado neste capítulo, selecionamos estimadores 
fi(x) e <t 2 (x) que sejam funções do vetor de observações x = (x 1( ..., x n )'. Considere dados 
hipotéticos x,, ..., todos amostras de tamanho n, que poderiam ter sido gerados da 
população em questão. Obtemos, então, as distribuições amostrais de /i(x) e <r 2 (x), como 
na seção 10.7. Podemos também obter intervalos de confiança para os parâmetros des¬ 
conhecidos n e o 2 , bem como testar hipóteses sobre esses parâmetros, assunto a ser 
discutido no Capítulo 12. 

Para construir intervalos de confiança e testar hipóteses será necessário conhecer a 
distribuição amostrai dos estimadores. Como só temos um conjunto de dados e não 
dados hipotéticos, estas distribuições amostrais terão de ser obtidas de outra maneira, 
e não como no Exemplo 10.7. Usualmente isso é feito usando teoremas como o Teorema 
Limite Central, discutido na seção 10.8, obtendo-se uma distribuição aproximada para 
os estimadores, que vale para tamanhos de amostras grandes. 

A crítica que se faz à teoria freqüentista é a possibilidade de "replicar dados", bem 
como o recurso à teoria assintótica. Uma teoria que não faz uso de tais argumentos é a 
inferência bayesiana, cujos fundamentos foram estabelecidos por T. Bayes em 1763. 
Outros expoentes dessa corrente foram Bernoulli (1713), Laplace (1812) ejeffreys (1939). 
Aqui, o Teorema de Bayes, estudado no Capítulo 5, tem papel fundamental. A noção de 
probabilidade prevalente aqui é a subjetiva, discutida brevemente no mesmo capítulo. 






318 


CAPÍTULO II — ESTIMAÇÃO 


Com relação ao nosso exemplo, a Inferência Bayesiana admite que os parâmetros 
H e a 2 , que são quantidades desconhecidas da distribuição de X, podem ser descritos 
por uma distribuição de probabilidades, p(/u, o 2 ), chamada a distribuição a priori des¬ 
ses parâmetros. Nessa distribuição são incorporadas todas as informações que temos 
sobre 9 = [p, cr 2 )', inclusive de natureza subjetiva. Essa distribuição é hipotetizada 
antes de se colherem os dados. 

O que é importante observar é que, tanto na teoria freqüentista como na bayesiana, 
um parâmetro qualquer, como p, no exemplo acima, é considerado fixo. O que se faz 
no enfoque bayesiano é caracterizar a incerteza sobre esse parâmetro por meio de uma 
distribuição de probabilidades. 

Após obtidos os dados, obtemos a função de verossimilhança, que incorpora a 
informação sobre 9 fornecida pelos dados. Finalmente, obtemos a distribuição a 
posteriori de 9, dada a amostra observada. Um estimador de 9 pode ser tomado, por 
exemplo, como a média ou a moda dessa distribuição a posteriori. 

Vimos no Capítulo 5 que o teorema de Bayes pode ser usado para atualizar proba¬ 
bilidades de um evento. Mas o teorema também pode ser utilizado para obter informa¬ 
ção sobre um parâmetro desconhecido de um modelo probabilístico, como o binomial 
ou normal, por exemplo. Chamemos de 9 um tal parâmetro, suposto desconhecido, e 
para o qual tenhamos alguma informação anterior, consubstanciada numa distribuição 
de probabilidades p[9), chamada distribuição a priori de 9. Vamos supor, por ser mais 
simples, que 9 tenha os valores 9 V 9 2 ,..., 9 r , com probabilidades a priori P(9 = 9.) = 
p(9 ;), / = 1, 2,..., r. Chamemos de y a nova informação sobre 9, que também é obtida 
de um modelo discreto. Então o teorema de Bayes pode ser escrito 


P(0,|y) 


P(e,)P (y l e,) 
Y I=1 P^ P (y1)' 


/ = 1, 2, ..., r. 


(11.47) 


Aqui, as verossimilhanças são P(y\9 1 ),..., P(yI 6»), e as probabilidades a posteriori 
determinadas pelo teorema de Bayes são P(9 1 \y ),..., P(9 r \y). Obtida essa distribuição a 
posteriori de 9, dada a nova informação y, podemos por exemplo estimar 9 como 
sendo a média dessa distribuição ou a moda (o valor que maximiza P(9\y)). 


Exemplo 11.18. Vamos considerar uma aplicação do Teorema de Bayes a um exemplo 
simples de mercado de ações. Chamemos de y o rendimento do IBOVESPA (índice da 
Bolsa de Valores de São Paulo), em porcentagem, por período (mês, por exemplo). 
Suponha que estejamos interessados somente se o rendimento for positivo (y > 0) ou 
negativo (y < 0). Designando por 9 o "estado do mercado", vamos considerar apenas 
dois estados, mercado em alta (9 2 ) ou mercado em baixa (9 2 ). Suponha que se tenha a 
seguinte informação prévia (ou a priori) sobre as probabilidades de 9 2 e 9 2 \ 


priori 

0, 

0 2 

P(O) 

3/5 

2/5 
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Então, as probabilidades a priori dos estados são p(0 1 ) = P(0 = 0 2 ) = 3/5 e p(0 2 ) = 
P(0 = e 2 ) = 2/5. As verossimilhanças são dadas aqui por 

P (y > O|0) e P (y < O|0), 

para 6 = 0 V d 2 , que denotaremos genericamente por p(y| 0 ). Essas verossimilhanças 
são supostas conhecidas no Teorema de Bayes e vamos supor que em nosso caso são 
dadas na tabela abaixo. 



p(y|0) 

y 


0 2 

y >0 

2/3 

1/3 

y <0 

1/3 

2/3 


Ou seja, temos que 


P (y > 010,) = 2/3, P(y > 0|0 2 ) =1/3, 

P (y < 010,) = 1/3, P(y <0| e 2 ) =2/3. 
Podemos calcular as probabilidades conjuntas p(y, 0), ou seja, 


p(y,0) = p( 0 )p(y| 0 ), 


obtendo-se a tabela abaixo. 


0 

P(y,e) 


y 

0i 

0 2 

p(y) 

y >0 

6/15 

2/15 

8/15 

y <0 

3/15 

4/15 

7/15 

p(O) 

9/15 

6/15 

1 


Por exemplo, 

P (y > 0, 0 = 0 X ) = P (0 = 9J ■ P (y > O|0 = OJ = 3/5 x 2/3 = 6/15. 

O Teorema de Bayes, dado pela fórmula (11.47), fornece as probabilidades a 
posteriori de d 1 e 0 2 , dado o valor observado de y: 

pm = pwm ( 11 . 48 ) 

Para calcular (11.48) precisamos calcular p(y), que são chamadas probabilidades 
marginais preditoras ou simplesmente previsões. Usando o mesmo argumento que 
deu origem a (5.14), podemos escrever 

P(y) =1 p(y, 0) = 1 p(0)p(yl0). 

Em nosso caso, 

P(y >0) =P(0 1 )P(y > 010,) +P(0 2 )P(y >O|0 2 ) 

= 3/5 x 2/3 + 2/5 x 1/3 = 8/15. 
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Do mesmo modo, 

P(y < 0 ) =P(e 1 )P (y <01^) + p (e 2 )p (y <oie 2 ) =7/15, 
e teremos a tabela a seguir: 


y 

p(y) 

y >0 

8/15 

y <0 

7/15 


Vemos que essa é a mesma distribuição marginal de y, dada na tabela que mostra a 
distribuição conjunta de y e 9. 

Então, por (11.48), 


P {e - e . 0) _ p W (y > °l 0 i) _ 3/5 x 2/3 _ 3/ , 

P ( 0-fl 1 ly >O) - pj^õ) - 8/I5 _3/4 ’ 


P (d = 0 2 \y > 0) = 


P(e 2 )p (y > 01 e 2 : 

p (y > o) 


= 1/4. 


De modo análogo, obtemos 


P (9 = fljy < 0) = 3/7, P(e = e 2 \y < 0) = 4/7. 

Temos, então, as probabilidades condicionais de alta e baixa, dada a informação 
de que 0 retorno é positivo ou negativo: 


e 

P(0 

y) 



0 2 

y >0 

3/4 

1/4 

y <0 

3/7 

4/7 


Podemos, por exemplo, "estimar" 9 (alta ou baixa) por e x (mercado em alta) se y > 
0, já que P(6 = 0Jy > 0) = 3/4 e "estimar" O por 6 2 (mercado em baixa) se y < 0, pois 
P(9 = d 2 \y < 0) = 4/7. Ou seja, tomamos o valor máximo da probabilidade a posteriori, 
dada a informação sobre o rendimento. 

Esse é um exemplo do que se chama de modelo estático. Poderíamos considerar 
um modelo dinâmico, supondo-se que esse muda de período para período (de dia para 
dia ou de mês para mês etc.). 


11.9. Exemplos Computacionais 

Simulando Erros Padrões 

Na seção 11.7 definimos o que seja o erro padrão de um estimador T de um parâmetro 9, 
baseado numa AAS de uma população rotulada pela v.a. X. Vimos, em particular, que o erro 
padrão da média amostrai X é dado por (11.42) e esse pode ser estimado por (11.44), ou seja, 

v ~\ S 
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O erro padrão de um estimador é fundamental para avaliarmos quão bom ele é. 
Simplesmente calcular T, ou saber que ele é não-viesado, não é suficiente: é necessário 
calcular sua variabilidade. 

Mas, na maioria das situações, não podemos obter uma estimativa do erro padrão 
de um estimador. Considere, por exemplo, a mediana de uma amostra, 


md = medfXj, ..., X n ). 


(11.49) 


Pode não ser fácil calcular a Var(md) e, conseqüentemente, o erro padrão de md. 
Se admitirmos que a aproximação (11.18) é razoável, então teremos 



e poderemos, novamente, estimar a por S e obter 



Mas, se tivermos amostras não muito grandes, a aproximação pode não ser adequada. 

Felizmente, com o progresso de métodos computacionais usando intensivamente 
computadores cada vez mais rápidos e com capacidade cada vez maior de lidar com 
conjuntos grandes de dados, o cálculo de erros padrões, vieses etc., pode ser feito sem 
recorrer a uma teoria, que muitas vezes pode ser muito complicada ou simplesmente 
não existir. 

Um desses métodos é chamado bootstrap, introduzido por B. Efrom, em 1979. Os 
livros de Efrom e Tibshirani (1993) e Davison e Hinkley (1997) são referências impor¬ 
tantes para aqueles que quiserem se aprofundar no assunto. 

A idéia básica do método bootstrap é re-amostrar o conjunto disponível de dados para 
estimar o parâmetro d, com o fim de criar dados replicados. A partir dessas replicações, 
podemos avaliar a variabilidade de um estimador proposto para 6, sem recorrer a cál¬ 
culos analíticos. 

Vamos ilustrar o método com um exemplo. 

Exemplo 11.19. Suponha que temos os dados amostrais x= (x v x 2 , ..., x n ) e queremos 
estimar a mediana populacional, M d, por meio da mediana amostrai mdtx) = med(x 1( ..., x n ). 

Vamos escolher uma AAS (portanto, com reposição) de tamanho n dos dados. Tal 
amostra é chamada uma amostra bootstrap e denotada por X* = (x* ..., x*). 

Por exemplo, suponha que x = (x v x 2 , x 3 , x 4 , x 5 ). Poderemos obter, por exemplo, 
X * = (x 4 , x 3 , x 3 , x v x 2 ). 

Suponha, agora, que geremos B tais amostras independentes, denotadas **, ..., xjj. 
Para cada amostra bootstrap, geramos uma réplica bootstrap do estimador proposto, 
ou seja, de md(x), obtendo-se 


md(x*), md(** 2 ). md(x*). 


(11.50) 
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Definimos o estimador bootstrap do erro padrão de md(x) como 


EP fi (md) = 


X s b Jmd(j£) - md) 2 

B - 1 


1/2 


com 


md 


B 


(11.51) 

(11.52) 


Ou seja, o estimador bootstrap do erro padrão da mediana amostrai é o desvio padrão 
amostrai do conjunto (11.50). Na Figura 11.5 temos representado o esquema do método. 

Vamos ilustrar o método com um exemplo numérico simples. Suponha que n = 5 e 
a amostra é x= (2, 5, 3, 4, 6). Vamos considerar B = 5 amostras bootstrap de x. Como 
gerar tais amostras? Primeiramente, geramos cinco números aleatórios i v ..., i 5 dentre 
os cinco números inteiros 1, 2, 3, 4, 5 e consideramos a amostra bootstrap X* = (x (1 , ..., 
x i5 ). Repetimos esse procedimento cinco vezes. Podemos usar a Tabela VII para gerar 
esses NA, como já aprendemos. Considere, por exemplo, as cinco primeiras linhas e, 
começando do canto esquerdo, prossiga em cada linha até obter cinco dígitos entre 1 
e 5, inclusive; note que pode haver repetições! Obtemos a Tabela 11.2. 


Figura 11.5: Procedimento bootstrap para calcular o erro padrão da mediana amostrai. 



Tabela 11.2: Procedimento bootstrap. 


NA 

Amostra 

bootstrap 

md(X) 

x(X) 

1,2,2,5,1 

(2,5,5,ó,2) 

5,0 

4,0 

4,4,4,3,2 

(4,4,4,3,5) 

4,0 

4,0 

5,4,5,5,5 

(6,4,6,6,6) 

6,0 

5,6 

5,1,1,5,5 

(6,2,2,6,6) 

6,0 

4,4 

2,5,4,5,3 

(5,6,4,6,31 

5,0 

4,8 


Por exemplo, obtidos os NA 1, 2, 2, 5, 1, teremos a amostra bootstrap (x 1( x 2 , x 2 , x 5 , x 2 ) 
= (2, 5, 5, 6, 2), para a qual a mediana amostrai é 5. Segue-se que md = 26/5 = 5,2 e 


EP B (md) = 


y 5 b=1 (md(x*) - 5,2) 2 


4 


= 0,837. 
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Se usarmos a aproximação (11.18), calculamos a variância da amostra original, 
obtendo-se 5 2 = 2,5, donde ÉP(md) ~ 0,886. Levando-se em conta o tamanho da amos¬ 
tra, a discrepância entre os dois valores não é grande. 


Exemplo 11.20. Na Tabela 11.2 calculamos, também, para cada amostra bootstrap, a 
média amostrai, X. Obtemos, usando (11.51), 

Éf> B (x) = 0,669, 

e usando a fórmula (11.44), 

ÉP(x) = V 2,5/5 = 0,707, 

logo o valor obtido pelo método bootstrap está bastante próximo do valor calculado 
pela fórmula obtida de maneira analítica. Obviamente, em situações nas quais há uma 
fórmula disponível, não há necessidade de se usar bootstrap. 

A questão que se apresenta é: qual deve ser o valor de B, ou seja, quantas amostras 
bootstrap devemos gerar para estimar erros padrões de estimadores? A experiência 
indica que um valor razoável é B = 200. 

No caso geral de um estimador 0 = T(x), o algoritmo bootstrap para estimar o erro 
padrão de 6 é o seguinte: 

[1] Selecione B amostras bootstrap independentes x* ..., x*, cada uma consistin¬ 
do de n valores selecionados com reposição de x. Tome B ~ 200. 

[2] Para cada amostra bootstrap x* calcule a réplica bootstrap 

fr(b) =T(tf b ), 5=1,2 . B. 

[3] O erro padrão de d é estimado pelo desvio padrão das B réplicas: 



B - 1 


X(0*(b) - 9*) 2 


b =1 


1/2 


(11.53) 


com 

6* = - B j = i Ô*(b) . ( 11 . 54 ) 

B 

No exemplo acima, notamos que um intervalo de confiança aproximado para a 
mediana populacional Md, com coeficiente de confiança 95%, seria 

5,2 ± (1,96)(0,837) = ]3,56; 6,84[. 

No exemplo dado, para efeito de ilustração do método bootstrap, tomamos uma 
amostra pequena (n = 5) e poucas amostras bootstrap (B = 5). Para amostras maiores e 
B na ordem de 200 deveremos fazer um pequeno programa, em alguma linguagem 
(como o Visual Basic, Pascal, Fortram, C etc.), que gere as amostras bootstrap, e cal¬ 
cular o estimador dado por (11.53). Isso implica, em particular, gerar, para cada amos¬ 
tra bootstrap, n números aleatórios. Como já vimos, não é prático usar uma tabela de 
NA nessa situação; devemos usar alguma rotina de computador. 
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11.10 Problemas e Complementos 

22. Um pesquisador está em dúvida sobre duas possíveis estatísticas, t e t, para serem usa¬ 
das como estimadores de um parâmetro d. Assim, ele decidiu usar simulação para uma 
situação hipotética, procurando encontrar pistas que o ajudassem a decidir qual o melhor 
estimador. Partindo de uma população fictícia, onde 0 = 10, ele retirou 1.000 amostras de 
20 elementos, e para cada amostra calculou o valor das estatísticas t e t. Em seguida, 
construiu a distribuição de freqüências, segundo o quadro abaixo. 


Classes 

% de t 

% de t 

51-7 

10 

5 

71- 9 

20 

30 

91-11 

40 

35 

11 h-13 

20 

25 

131—15 

10 

5 


(a) Verifique as propriedades de t e t como estimadores de 0. 

(b) Qual dos dois você adotaria? Por quê? 

23. De experiências passadas, sabe-se que o desvio padrão da altura de crianças de 
5 a série do I a grau é 5 cm. 

(a) Colhendo uma amostra de 36 dessas crianças, observou-se a média de 150 cm. 
Qual o intervalo de confiança de 95% para a média populacional? 

(b) Que tamanho deve ter uma amostra para que o intervalo 150 ± 0,98 tenha 95% 
de confiança? 

24. Um pesquisador está estudando a resistência de um determinado material sob determina¬ 
das condições. Ele sabe que essa variável é normalmente distribuída com desvio padrão 
de duas unidades. 

(a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de 
uma amostra de tamanho 9, determine o intervalo de confiança para a resistência 
média com um coeficiente de confiança 7=0,90. 

(b) Qual o tamanho da amostra necessário para que o erro cometido, ao estimarmos a 
resistência média, não seja superior a 0,01 unidade com probabilidade 0,90? 

(c) Suponha que no item (a) não fosse conhecido o desvio padrão. Como você procede¬ 
ria para determinar o intervalo de confiança, e que suposições você faria para isso? 
Veja também o Problema 44. 

25. Estime o salário médio dos empregados de uma indústria têxtil, sabendo-se que uma 
amostra de 100 indivíduos apresentou os seguintes resultados: 


Salário 

Freqüência 

150,001— 250,00 

8 

250,001-350,00 

22 

350,001-450,00 

38 

450,001-550,00 

28 

550,001-650,00 

2 

650,001-750,00 

2 


Use 7 = 0,95. 
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26. Suponha que as vendas de um produto satisfaçam ao modelo 

V t — cc + /3f + 9 t , 

onde a t éa variável aleatória satisfazendo as suposições da seção 11.4, e o tempo é dado 
em meses. Suponha que os valores das vendas nos 10 primeiros meses do ano 1 sejam 
dados pelos valores da tabela abaixo. Obtenha as previsões para os meses de novembro 
e dezembro do ano 1 e para julho e agosto do ano 2. 


t 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

Yt 

5,0 

6,7 

6,0 

8,7 

6,2 

8,6 

11,0 

11,9 

10,6 

10,8 


27. Numa pesquisa de mercado para estudar a preferência da população de uma cidade em 
relação a um determinado produto, colheu-se uma amostra aleatória de 300 indivíduos, 
dos quais 180 preferiam esse produto. 

(a) Determine um intervalo de confiança para a proporção da população que prefere o 
produto em estudo; tome 7=0,90. 

(b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do 
verdadeiro valor em mais de 0,001. 

(c) E possível obter uma estimativa pontual dessa proporção que não difira do valor 
verdadeiro em mais de 0,0005 com probabilidade 0,95? Caso contrário, determine o 
que deve ser feito. 

28. Uma amostra de 10.000 itens de um lote de produção foi inspecionada, e o número de 
defeitos por item foi registrado na tabela abaixo. 


N 2 de defeitos 

0 

1 

2 

3 

4 

Quantidade de peças 

6.000 

3.200 

600 

150 

50 


(a) Determine os limites de confiança para a proporção de itens defeituosos na popula¬ 
ção, com coeficiente de confiança de 98%. Use (11.40). 

(b) Mesmo problema, usando (11.41). 

29. Antes de uma eleição em que existiam dois candidatos, A e 8, foi feita uma pesquisa com 
400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no 
candidato/!. Construa um intervalo de confiança, com c.c. 7=0,95, para a porcentagem 
de eleitores favoráveis ao candidato/) na época das eleições. 

30. Encontre o c.c. de um intervalo de confiança para p, sen - 100, p =0,6 e a amplitude do 
intervalo deve ser igual a 0,090. 

31. Usando os resultados do Problema 32 do Capítulo 10, mostre que o intervalo de confiança 
para a diferença das médias populacionais, com variâncias conhecidas, é dado por 

IC (ju 1 - pi 2 : y) - (X - Y)±z(y) 'lo\ln l J ro\ln 2 . 

32. Estão sendo estudados dois processos para conservar alimentos, cuja principal variável de 
interesse é o tempo de duração destes. No processo A, o tempo X de duração segue a 
distribuição A/(jU A , 100), e no processo 8 o tempo Y obedece à distribuição N(/u B , 100). 
Sorteiam-se duas amostras independentes: a de4, com 16 latas, apresentou tempo médio 
de duração igual a 50, e a de 8, com 25 latas, duração média igual a 60. 
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(a) Construa um IC para jU A e p e , separadamente. 

(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se cons¬ 
truir um IC para a diferença p A - p e . Caso o zero pertença ao intervalo, pode-se 
concluir que existe evidência de igualdade dos processos. Qual seria sua resposta? 

33. Seja X uma v.a. com E (X ) - p e VdriX ) = a 2 finita. Então, para todo k > 0, a seguinte 
desigualdade (chamada desigualdade de Chebyshev) é válida: 

P(|X-p| ^k)^Var(X)/k 2 . (11.55) 


Usando (11.55), prove que X é um estimador consistente para a média p de uma popu¬ 
lação com variância O 2 . 


34. Lei dos Grandes Números. Consideremos n provas de Bernoulli com p =P (sucesso), e 
seja k o número de sucessos nas n provas. A Lei dos Grandes Números (LGN ) afirma que, 
para n grande, a proporção de sucessos k/n estará próxima de p -P (sucesso). Formal¬ 
mente, para todo £ > 0, 


P 


k 

' 

n~P 

3 = £ 


Pd-P) 

ne 2 


(11.56) 


Prove (11.56), usando (11.55). 


35. A LGN pode ser usada de maneira útil na seguinte situação. Suponha que queiramos 
saber quantas repetições de um experimento de Bernoulli devemos realizar a fim de que kl 
n difira de p de menos de £, com probabilidade maior ou igual a y. Ou seja, queremos 
determinam, tal que 


k 

- -P 
n 


< e 


De (11.56) temos 



< £ 


Pd-P) 

ne 2 


logo, comparando, temos que n deve satisfazer 

l- P( 1 -P) = y^n = P(l-P ) ,onde^l-y. 

ne 2 de 2 

Como não conhecemos p, usando o fato de que p(l - p) =£ 1/4; logo, basta tornam tal 
que n = l/4ôe 2 . 

Usando esse resultado, resolva este problema: suponha que a proporção de fumantes de 
uma população é p, desconhecida. Queremos determinarp com um erro de, no máximo, 
0,05. Qual deve ser o tamanho da amostra n, a ser escolhida com reposição, se y = 0,95? 


36. Se a distribuição de X depende de mais de um parâmetro, digamos Q l e 0 2 , então 
L(0 V d 2 , X v X n ), e para maximizar L basta derivar L em relação a 9 X e 0 2 (em 
algumas situações, derivar! não conduz ao EM V ; veja o Problema 43). Considere, então, 
X ~ N(/u, a 2 ). Determine os EMV de p e a 2 , considerando d£/dp = 0 e 
d£/da 2 = 0, onde £ = log L . 
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37. Estimação numa distribuição uniforme. Suponha queX tenha uma distribuição uniforme 
no intervalo (0, 0), onde 0é desconhecido. Uma amostra de n observações X v ..., X n é 
escolhida. Sabemos que E(X ) = £(X f ) = 0/2, para todo i, e Var(X) =Var(X ( .) = 8 2 I12, para 
todo /. Logo, se calcularmos a média amostrai X, essa deve estar próxima de 81 2 e pode¬ 
mos estimar 8 por T 1 - 2X . 

(a) Calcule E(T 2 ). 

(b) Calcule EQM (TJ =E(T 1 - 8) 2 . 

(c) T 1 é consistente? Por quê? 

38. Continuação do Problema 37. Outra maneira de estimar 0na uniforme é a seguinte. Con¬ 
sidere M =max(X 1 , ...,XJ =x , ou seja, o maior valor da amostra. Para qualquer valor de 
8, M <0eM se aproxima de 8 quando n aumenta. Tome M como estimador de 8, o que 
é bastante razoável. Na realidade, veremos, no Problema 42, que M = d HV . 

Vimos no Problema 39 do Capítulo 10, que a densidade de M é dada por 


f M M = 


0 " 

0 , 


se 0 ss x 8 
caso contrário. 


(11.57) 


(a) Mostre que £(M) =0 , logo M é viesado. Calcule o viés V M (8) de M e mostre 

que esse viés tende a zero, quando n ~>°°. 


(b) Considere o estimador T = 


n +1 


M; segue-se que T é não-viesado para 0, ou 


seja, £(7" 2 ) = 0. Calcule o erro quadrático médio de T 2 , EQM (T 2 ) =£(T 2 - 0) 2 . 
(c) T é consistente? Por quê? 


39. Para os Problemas 37 e 38, mostre que Var (T 2 ) =[3/(n +2)] Var(Tj_). Tome n = 1, 2,10, 50, 
100 e verifique qual a relação entre as duas variâncias. Verifique que, para n grande, T 2 
= [(n +l)/n]M é um estimador muito melhor do que T 1 -2X. Como T 2 =(1 + l/n)M , vemos 
que, para n grande, T 2 ~ M . Portanto, para tamanhos de amostras grandes, o EM V é 
melhor do que 2X. 


40. Considere as situações dos Problemas 37, 38 e 39. Suponha que n seja suficientemente 
grande para que o TLC se aplique e se possa aproximar a distribuição de X e de M por uma 
distribuição normal. 

(a) Calcule a média e variânça de T y M eT r 

(b) Obtenha um I.C. (0; 0,90) usando T y 

(c) Idem usando M. 

(d) Idem usando T r 

[Sugestão: substitua na variânça de cada estimador, obtida em (a), o parâmetro 0, desco¬ 
nhecido, pelo seu estimador, para obterá respectiva variânça esitmada] 


41. Foram gerados 1.000 valores de uma distribuição uniforme no intervalo (0, 5), ou seja, 
0 = 5. As seguintes estatísticas foram obtidas: 
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x,i, =min(X 1 .X 10 J =0,01132, x (1000) = M = max(X 1 .X 1000 ) =4,992; 

q 1 = 1,315, q 2 = 2,572, q 3 = 3,829, x=2,547. 


Calcule T v T 2 e aplique o resultado do Problema 40 para obter um intervalo de confiança 
para 9, com C.C. =90%. 

42. EM V na uniforme. Como 

f(x)=( 1/0, se0 ^ x ^ 6 ' 

[O, caso contrário, 


a densidade conjunta da amostra é 


. 


se 0 x, ss e, i = 1n 
caso contrário. 


Segue-se que €(9 |x x . X n ) = -n log 9 e derivando e igualando a zero obteremos 

-n/0 - 0, ou seja, o EM V de 9 seria °°! Evidentemente, essa não é a resposta. Na 
realidade, não podemos simplesmente derivar a verossimilhança (ou o logaritmo dela) 
para obter o máximo, pois temos as restrições 0 =£ x ; =£ 9, para todo /. Façamos o 
seguinte. Considere o gráfico da densidade conjunta, ou da verossimilhança, como fun¬ 
ção de 9. Como devemos ter 0 X ( ( . =£ 9, para todo /, o máximo M dos x ; deve ser tal que 
0 =£ M 9, ou seja, obtemos o gráfico abaixo. 



Ou seja, L(9\x v ■■■,X n ) =0, para 0^ M; logo, o máximo da verossimilhança é obtido para 
9=M e portanto 9 mv = M. 

Esse exemplo mostra que nem sempre obteremos o EM V derivando-se a verossimilhança 
e igualando-a a zero. 


43. Suponha que X ~ N(ju, a 2 ), n e a 2 desconhecidos. Uma amostra de tamanho n - 600 

X-y 


forneceu X = 10,3 e S 2 = 1,96. Supondo que a v.a. Z = 


S/Vn 


seja aproximadamente 


normal, obtenha um IC para |í, com C.C. y = 0,95 (se n for pequeno, Z não é aproxima¬ 
damente normal; ver Capítulo 12). 









11.10 PROBLEMAS E COMPLEMENTOS 


329 


44. Para estimara média jd desconhecida de uma população, foram propostos dois estima- 
dores não-viesados independentes, j2 1 e de tal sorte que Varf/Í^ =Var(/í 2 )/3. Considere 
os seguintes estimadores ponderados de fU: 

(a) Tj = (fi 1 + fi 2 )l2; 

(b) T 2 =(4ju 1 +fi 2 )/5; 

(c) T 3 =fi 1 . 

(i) Quais estimadores são não-viesados? 

(ii) Dispor esses estimadores em ordem crescente de eficiência. 

45. Obtenha o estimador de A na Poisson, pelo método dos momentos. 

46. Considere o CD-Notas e retire uma amostra com reposição de tamanho n- 10. Determine 
o erro padrão estimado pelo método bootstrap das estatísticas (use 6 = 15, por exemplo): 

(a) md = mediana da amostra; 

(b) dm = desvio médio da amostra. 

(c) dam = desvio absoluto mediano. 

47. Prove (11.1 5). 

48. Calcule o EQM (erro quadrático médio), dado por (1 1.20), para os estimadores S? e a 2 , 
no caso de população normal. Compare esses dois EQM . Qual estimador você escolhe¬ 
ria, se o critério de escolha é ter o menor EQM ? 

49. Considere a v.a. discreta X com função de probabilidade dada por: 

PM =p(x = X) = i x=i, 2,e 

u 

onde 0 > 0 é um número inteiro desconhecido. Uma AASXj, X n 6e tamanho né 
selecionada e considera-se o seguinte estimador de 9: 

T = 2X- 1, onde X=]-f j X i . 

'' / = 1 

(a) Mostre que T é um estimador não-viesado de 9 e obtenha sua variância. T é um 
estimador consistente de 0? Porquê? 

(b) Se n — 6 e a amostra observada forXj -X^ =X 3 =X 4 =.X^ = 1 e X^ -2, qual é a estimativa 
de 0? Esta estimativa é um valor plausível para 0? Sugira outro estimador para 0 que 
somente conduza a valores plausíveis de 0. 

[Observação: 5^ / = k{k+ l)/2, i 2 - k{k+ l)(2/c+ l)/6, k S 5 1, k inteiro.] 



Capítulo 1 2 


Testes de Hipóteses 


12.1 Introdução 

Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência 
Estatística é o de testar uma hipótese. Isto é, feita determinada afirmação sobre uma 
população, usualmente sobre um parâmetro dessa, desejamos saber se os resultados 
experimentais provenientes de uma amostra contrariam ou não tal afirmação. Muitas 
vezes, essa afirmação sobre a população é derivada de teorias desenvolvidas no cam¬ 
po substantivo do conhecimento. A adequação ou não dessa teoria ao universo real 
pode ser verificada ou refutada pela amostra. O objetivo do teste estatístico de hipóte¬ 
ses é, então, fornecer uma metodologia que nos permita verificar se os dados amostrais 
trazem evidências que apoiem ou não uma hipótese (estatística) formulada. 

Neste capítulo iremos introduzir o procedimento básico de teste de hipótese sobre um 
parâmetro de uma população. A idéia central desse procedimento é a de supor verdadeira a 
hipótese em questão e verificar se a amostra observada é "verossímil" nessas condições. No 
capítulo seguinte daremos alguns testes para comparação de parâmetros de duas populações. 

12.2 Um Exemplo 

Vamos introduzir a idéia de teste de uma hipótese por meio de um exemplo hipo¬ 
tético que, partindo de uma situação simples, será gradualmente ampliado para aten¬ 
der à situação geral do teste de hipóteses. 

Exemplo 12.1. Uma indústria usa, como um dos componentes das máquinas que pro¬ 
duz, um parafuso importado, que deve satisfazer a algumas exigências. Uma dessas é 
a resistência à tração. Esses parafusos são fabricados por alguns países, e as especificações 
técnicas variam de país para país. Por exemplo, o catálogo do país A afirma que a 
resistência média à tração de seus parafusos é de 145 kg, com desvio padrão de 12 kg. 
Já para o país B, a média é de 155 kg e desvio padrão 20 kg. 

Um lote desses parafusos, de origem desconhecida, será leiloado a um preço muito 
convidativo. Para que a indústria saiba se faz ou não uma oferta, ela necessita saber qual 
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país produziu tais parafusos. O edital do leiloeiro afirma que, pouco antes do leilão, será 
divulgada a resistência médiaX de uma amostra de 25 parafusos do lote. Qual regra de 
decisão deve ser usada pela indústria para dizer se os parafusos são do país A ou B? 

Uma resposta que ocorre imediatamente é a que considera como país produtor 
aquele para o qual a média da amostra mais se aproximar da média da população. 
Assim, uma possível regra de decisão seria: 

SeX ss 150 (o ponto médio entre 145 e 155), diremos que os parafusos são do país 
A; caso contrário, isto é, X > 150, são do país B. 

Na Figura 12.1 ilustramos essa regra de decisão. 


Figura 12.1 Regra de decisão para o Exemplo 12.1. 


A -_ 



^ B 






145 

150 

155 

X 


Suponha que, no dia do leilão, fôssemos informados de quex = 148; de acordo 
com nossa regra de decisão, diríamos que os parafusos são de origem A. Podemos 
estar enganados nessa conclusão? Ou, em outras palavras, é possível que uma amostra 
de 25 parafusos de origem B apresente média X = 148? Sim, é possível. Então, para 
melhor entendermos a regra de decisão adotada, é interessante estudarmos os tipos de 
erros que podemos cometer e as respectivas probabilidades. 

Podemos cometer dois tipos de erros, e vamos numerá-los para facilitar a linguagem: 

Erro de tipo I : dizer que os parafusos são de A quando na realidade são de B. Isso ocorre 
quando uma amostra de 25 parafusos de B apresenta média X inferior ou igual a 150 kg. 

Erro de tipo II: dizer que os parafusos são de B, quando na realidade eles são de A. Isso 
ocorre quando uma amostra de 25 parafusos de A apresenta média X superior a 150 kg. 

Para facilitar ainda mais, vamos definir duas hipóteses também numeradas: 

H 0 : os parafusos são de origem B. Isso equivale a dizer que a resistência X de cada 
parafuso segue uma distribuição com média ju = 155 e desvio padrão o = 20. 

H x : os parafusos são de A, isto é, a média /u = 145 e o desvio padrão o = 12. 

Finalmente, vamos indicar por RC a região correspondente aos valores menores 
que 150, ou seja, 

RC = {y e !R\y « 150}. 

Com as notações indicadas acima, a probabilidade de se cometer cada um dos 
erros pode ser escrita: 

P (erro \) = P (X E RC\H 0 é verdadeira) = a 
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P (erro II) = P (X £ RC \H 1 é verdadeira) = p. 

Quando H 0 for verdadeira, isto é, os parafusos forem de B, sabemos do TLC que X terá 
distribuição aproximadamente normal, com média 155 e desvio padrão igual a 20/V25 = 4, 
isto é, 

X ~ N (155,16). 

Denotando por Z a v.a. com distribuição N (0,1), temos 

P (erro I) = P (X e RC \H 0 é verdadeira) 

= P(X ss 150IX ~ N (155,16)) 


\ 4 

= P (Z ^ - 1,25) = 0,10565 = 10,56% = a. 

De modo análogo, quando H 1 for a alternativa verdadeira, teremos que a v.a. X é 
tal que, aproximadamente, 

X ~ A/(145; 5,76). 

Teremos, então, 

P (erro II) = P (X £ RC\H 1 é verdadeira) 

= P(X > 150IX ~ N (145; 5,76)) 

= p(z> 150 2 4 145 j = P (Z > 2,08) = 0,01876 = 1,88% = p. 

Observando esses dois resultados, notamos que, com a regra de decisão adotada, 
estaremos cometendo o erro de tipo I com maior probabilidade do que o erro de tipo II. De 
certo modo, essa regra de decisão privilegia a afirmação de que os parafusos são de A. No 
Quadro 12.1 ilustramos as conseqüências que podem advir da regra de decisão adotada. 


Quadro 12.1 : Resumo do teste H 0 : ^ = 155, H^ n = 145, com RC =]-<», 150]. 


Origem Real 

dos 

Parafusos 

Decisão 

RC 

1 lliO 1 

A 

L-B 

A 

Sem erro 

Erro tipo II 

P = 1,88% 

B 

Erro tipo I 
a = 10,56% 

Sem erro 


Desse quadro, podemos notar que, se os parafusos forem real mente de B (segunda 
linha) e a amostra tiver média superior a 150 (segunda coluna), diremos que são de B, 
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e não cometeremos erro algum. Por outro lado, se a média x for inferior a 150 (primei¬ 
ra coluna), devemos dizer que são de A, e estaremos cometendo um erro cuja probabi¬ 
lidade nesse caso é de 10,56%. De modo análogo, teremos uma interpretação para o 
caso de os parafusos serem realmente de A (primeira linha). 

Para cada regra de decisão adotada, isto é, se escolhermos um valor x c em vez de 150 no 
Quadro 12.1, apenas as probabilidades ae p mudarão. Sex c for escolhido menor que 150, 
notamos que a diminuirá e p aumentará. Logo, deve existir um ponto em que a seja igual a 
p, ou seja, uma regra de decisão em que a probabilidade de errar contra A seja a mesma que 
errar contra B. M ostre que esse ponto éx c = 148,75, e nesse caso a = p = 5,94%. 

Do exposto acima constatamos que, escolhido um valor dex c , podemos achar as 
probabilidades ae p de cometer cada tipo de erro. Mas também podemos proceder de 
modo inverso: fixar um dos erros, digamos oc, e encontrar a regra de decisão que irá 
corresponder à probabilidade de erro de tipo I igual a a. 

Por exemplo, fixemos a em 5%, e vejamos qual a regra de decisão correspondente. 
Temos 

5% = P (erro I) = P (X ^x c |X ~ N (155,16)) 

= P(Z ^ -1,645), 

mas da transformação para a normal padrão sabemos que 



ou seja,x c = 148,42. Então, a regra de decisão será: 

Sex for inferior a 148,42, dizemos que o lote é de A; caso contrário, dizemos que é de B. 
Com essa regra, a probabilidade do erro de tipo II será 

P = P (erro II) = P [X > 148,42|X ~ (145; 5,76)) 

= P(Z > 1,425) = 7,93%. 

Veja a ilustração na Figura 12.2. 


Figura 12.2: Ilustração dos erros de tipo I e II para o Exemplo 12.1. 












334 


CAPÍTULO 12 — TESTES DE HIPÓTESES 


Esse segundo tipo de procedimento é bastante utilizado, porque usualmente a de¬ 
cisão que devemos tomar não é apenas entre duas possíveis populações. Os parafusos 
poderiam ser produzidos por outros países além daqueles citados e, portanto, com 
outras características quanto à resistência média. Suponha, ainda, que interessa à in¬ 
dústria fazer uma proposta apenas no caso de o parafuso ser de origem B. Qual a regra 
de decisão que deve adotar? 

A hipótese que nos interessa agora é: 

H 0 : os parafusos são de origem B (/u = 155 e o = 20). 

Caso essa não seja a hipótese verdadeira, a alternativa é muito mais ampla e pode 
ser expressa como: 

H x : os parafusos não são de origem B (pi e o desconhecidos). 

Aqui não podemos especificar os parâmetros sob a hipótese alternativa H v pois se não 
forem de origem B, os parafusos podem ser de vários outros países, cada um com suas 
próprias especificações. Alguns países podem ter técnicas mais sofisticadas de produção e, 
portanto, produzir com resistência média superior a 155. Outros, como no exemplo dado, 
com resistência menor. A especificação da hipótese alternativa depende muito do grau de 
informação que se tem do problema. Por exemplo, vamos admitir que a indústria do país B 
para esse caso seja a mais desenvolvida, e nenhum outro país possa produzir uma resistên¬ 
cia média superior à dela. Então, nossa hipótese alternativa seria mais explícita: 

H x : os parafusos não são de origem B (pi < 155 e a qualquer). 

Isso significa que só iremos desconfiar deH 0 se x for muito menor do que 155. Ou 
seja, a nossa regra de decisão deverá ser semelhante à vista anteriormente. Como os 
parâmetros sob a hipótese alternativa são muitos, a melhor solução para construir a 
regra de decisão é fixar a, a probabilidade do erro de tipo I (rejeitar H 0 quando ela for 
verdadeira). Se fixarmos novamente a = 0,5, e nesse caso a regra de decisão depende 
apenas das informações de H 0 , a regra de decisão será a mesma anterior: 

Sex for superior a 148,42, diremos que o lote é de origem B; caso contrário, 
diremos que não é de origem B. 

Com essa regra de decisão e com a hipótese alternativa mais ampla, não podemos 
encontrar /?, pois não temos um único parâmetro pi como alternativa e nada sabemos 
sobre <x Então, não podemos controlar o erro de tipo II. As implicações dessa regra de 
decisão estão resumidas na Figura 12.3 e no Quadro 12.2. 


Figura 12.3: Teste H 0 : jj = 155 vs H 1 : ju < 155, com RC =]-«; 148,42], 
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Quadro 12.2: Resumo do teste H 0 : /u = 155, H ç. ju < 155, com RC = ]-», 148,42], 


Origem Real 

dos 

Parafusos 

Decisão 

RC , 

X 

148,42 

L-k não B 

—►B 

B 

Erro tipo I, a = 5% 

Sem erro 

não B 

Sem erro 

Erro tipo II, (3 = ? 


Podemos reescrever as hipóteses nessa situação da seguinte maneira: 

H 0 : n = 155 
Aí < 155 

O cálculo de depende do valor de pi, que não é especificado. Mas podemos 
considerar a seguinte e importante função. 

Definição. A função característica de operação (função CO) do teste acima é definida como 
pipi) = P (aceitar H 0 Iaí) = P(X > 148,421//). 

Ou seja, p(pi) é a probabilidade de aceitar H 0 , considerada como uma função de ju. 

Usualmente, considera-se a função n[pi) = 1 - /3(/j), que é a probabilidade de se 
rejeitar H 0 , como função de ju. Essa função é chamada função poder do teste e será 
estudada abaixo com certo detalhe. Nesses casos consideramos que a é o mesmo para 
todos os valores de pi. 

Admitamos, agora, que não exista razão alguma para acreditarmos que a resistência 
média dos parafusos de B seja maior ou menor do que a de outros países. Isso irá nos 
levar a duvidar que os parafusos não são de B, se a média observada for muito maior ou 
muito menor do que 155. Esta situação corresponde à seguinte hipótese alternativa: 

Hç. os parafusos não são de origem B (pi ± 155). 

Aqui, a regra de decisão deverá indicar dois pontos X Cl ex C; , tais que: 

Sex estiver entre x Cl ex C2 , diremos que os parafusos são de origem B; sex estiver 
fora do intervalo, diremos que não são de origem B. 

Fixado a, a probabilidade do erro I, existirão muitos valores que satisfazem a essa 
condição. Daremos preferência àquelas soluçõesX Cl ex C2 , simétricas em relação à mé¬ 
dia. Veja a Figura 12.4. 

Voltando ao nosso problema, e fixado a em 5%, temos 

0,05 = P (erro I) = P (X <X Cl ou X > X C2 \X ~ N (155,16)) 

= P (Z < -1,96 ou Z > 1,96), 

e daqui encontramos 

-1,96 = (X Cl - 155)/4 => X Cl = 147,16 
e 

1,96 = (X C2 - 155)/4 => X C! = 162,84. 
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Figura 12.4: Teste H 0 : /u = 155 vs H 1 : n # 155. 



Portanto, nesse caso, a região de rejeição da hipótese H 0 é (veja o Quadro 12.3) 

RC = {x G IR |x < 147,16 ou x > 162,84}. 

Do apresentado nesta seção, vemos que, dependendo do grau de informação que 
se tem do problema, podemos ter regras de decisão unilaterais ou bilaterais. Na seção 
seguinte iremos dar os passos para a construção de um teste de hipótese. 


Quadro 12.3: Resumo do teste H 0 : /j =155, H x : /i #155, com RC = ]-oo, 147,16] U [162,84, +°°[. 


Origem Real 

dos 

Parafusos 

Decisão 

RC RC 

147,16 162,£ 

4 X 

B ■» -- 

—►não B-«— 1 

B 

Sem erro 

Erro tipo II, (3 = ? 

não B 

Erro tipo I, a = 5% 

Sem erro 


1. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B, 
iremos proceder do seguinte modo: 

(i) selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos a altura 
média deles; 

(ii) se essa altura média for superior a 176, diremos que são descendentes de B; caso 
contrário, são descendentes de A. 

Os parâmetros das alturas das duas civilizações são: 

A : /j. = 175 e c = 10; 

B : /d =177 e cr = 10. 

Definamos: Erro de tipo I — dizer que os habitantes da ilha são descendentes de B quan¬ 
do, na realidade, são de A. 

Erro de tipo I i — dizer que são de A quando, na realidade, são de B. 

(a) Qual a probabilidade do erro de tipo I ? E do erro de tipo 11 ? 
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(b) Qual deve ser a regra de decisão se quisermos fixar a probabilidade do erro de tipo I em 
5%? Qual a probabilidade do erro de tipo II, nesse caso? 

(c) Se (J A = 5, como ficariam as respostas de (b)? 

(d) Quais as probabilidades do erro de tipo II, nas condições da questão (b), se a média 
fi B = 178? E /u B - 180? E n B = 181? Coloque num gráfico os pares (/u B , P (erro II \/u B )). 

2. Fazendo o teste 

H 0 : n = 1.150 (cr = 150) contra H 1 : ju- 1.200 (cr = 200), 
e n - 100, estabeleceu-se a seguinte região crítica: 

RC =[1.170, +°o[. 

(a) Qual a probabilidade ade rejeitar H g quando verdadeira? 

(b) Qual a probabilidade/IdeaceitarF^quandoE^éverdadeira? 

(c) Qual deve ser a região crítica para que a = /)? 

3. Nas situações abaixo, escolha como hipótese nula, H g/ aquela que para você leva a um 
erro de tipo I mais importante. Descreva quais os dois erros em cada caso. 

(a) O trabalho de um operador de radar é detectar aeronaves inimigas. Quando surge 
alguma coisa estranha na tela, ele deve decidir entre as hipóteses: 

1. está começando um ataque; 

2. tudo bem, apenas uma leve interferência. 

(b) Num júri, um indivíduo está sendo julgado por um crime. As hipóteses sujeitas ao júri são: 

1. o acusado é inocente; 

2. o acusado é culpado. 

(c) Um pesquisador acredita que descobriu uma vacina contra resfriado. Ele irá conduzir 
uma pesquisa de laboratório para verificar a veracidade da afirmação. De acordo com o 
resultado, ele lançará ou não a vacina no mercado. As hipóteses que pode testar são: 

1. a vacina é eficaz; 

2. a vacina não é eficaz. 

4. Se, ao lançarmos três vezes uma moeda, aparecerem 3 coroas, decidimos rejeitar a hipó¬ 
tese de que a moeda é "honesta". Quais as probabilidades de erro de tipo I e erro de tipo 
II, se p =2/3? 

5. A variável X, custo de manutenção de um tear, pode ser considerada como tendo distribui¬ 
ção normal de média /J. e desvio padrão 20 unidades. Os valores possíveis de p podem ser 
200 ou 210. Para verificar qual dos dois valores é o mais provável, usar-se-á uma amostra 
de 25 teares. Defina: 

(a) Uma hipótese a ser testada. 

(b) Uma regra de decisão e encontre as probabilidades dos erros de tipo I e 11. 

12.3 Procedimento Geral do Teste de Hipóteses 

A construção de um teste de hipóteses, para um parâmetro populacional, pode ser 
colocada do seguinte modo. Existe uma variável X associada a dada população e tem-se 
uma hipótese sobre determinado parâmetro 0 dessa população. Por exemplo, afirmamos 
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que o verdadeiro valor de 9 é 9 0 . Colhe-se uma amostra aleatória de elementos dessa 
população, e com ela deseja-se comprovar ou não tal hipótese. 

Como já vimos anteriormente, iniciamos nossa análise explicitando claramente qual 
a hipótese que estamos colocando à prova e a chamamos de hipótese nula, e escrevemos 

H 0 -.9 = 9 0 . 

Em seguida, convém explicitar também a hipótese que será considerada aceitável, 
caso H 0 seja rejeitada. A essa hipótese chamamos de hipótese alternativa, e a sua 
caracterização estatística irá depender do grau de conhecimento que se tem do proble¬ 
ma estudado. A alternativa mais geral seria 

H 1 : 9 9 0 . 

Poderíamos, ainda, ter alternativas da forma 

H 1 : 9 < 9 0 ou H 1 : 9 > 9 0 , 
dependendo das informações que o problema traz. 

Qualquer que seja a decisão tomada, vimos que estamos sujeitos a cometer erros. 
Para facilitar a linguagem, introduzimos as definições: 

Erro de tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamamos de a a 
probabilidade de cometer esse erro, isto é, 

a = P (erro do tipo I) = P (rejeitar HJH 0 é verdadeira). 

Erro de tipo II: não rejeitar H 0 quando H 0 é falsa. A probabilidade de cometer esse 
erro é denotada por /?, logo 

P = P (erro do tipo II) = P (não rejeitar H 0 |H 0 é falsa). 

O objetivo do teste de hipóteses é dizer, usando uma estatística 9, se a hipótese 
H 0 é ou não aceitável. Operacional mente, essa decisão é tomada através da conside¬ 
ração de uma região crítica RC. Caso o valor observado da estatística pertença a essa 
região, rejeitamos H 0 ; caso contrário, não rejeitamos H 0 . Esta região é construída de 
modo que P(0 e RC|H 0 é verdadeira) seja igual a a, fixado a priori. RC recebe o 
nome de região crítica ou região de rejeição do teste. Um fato importante a ressaltar 
é que a região crítica é sempre construída sob a hipótese de H 0 ser verdadeira. A 
determinação do valor de >3 já é mais difícil, pois usualmente não especificamos 
valores fixos para o parâmetro sob a hipótese alternativa. Mais adiante trataremos 
dessa situação, ao considerarmos o poder de um teste. 

A probabilidade a de se cometer um erro de tipo I (ou de primeira espécie) é um 
valor arbitrário e recebe o nome de nível de significância do teste. O resultado da amos¬ 
tra é tanto mais significante para rejeitar H 0 quanto menor for esse nível a. Ou seja, quanto 
menor for a, menor é a probabilidade de se obter uma amostra com estatística pertencen¬ 
te à região crítica, sendo pouco verossímil a obtenção de uma amostra da população 
para a qual H 0 seja verdadeira. Usualmente, o valor de a é fixado em 5%, 1% ou 0,1%. 
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A fixação do valor de a envolve uma questionável arbitrariedade. Neste sentido há 
um modo alternativo de se proceder, que será considerado na seção 12.8. 

12.4 Passos para a Construção de um Teste de Hipóteses 

Vimos nas seções anteriores o procedimento que se deve usar para realizar um 
teste de hipóteses. Daremos abaixo uma seqüência que pode ser usada sistematica¬ 
mente para qualquer teste de hipóteses. 

Passo 1. Fixe qual a hipótese H 0 a ser testada e qual a hipótese alternativa H y 

Passo 2. Use a teoria estatística e as informações disponíveis para decidir qual 
estatística (estimador) será usada para testar a hipótese H 0 . Obter as propriedades 
dessa estatística (distribuição, média, desvio padrão). 

Passo 3. Fixe a probabilidade a de cometer o erro de tipo I e use este valor para 
construir a região crítica (regra de decisão). Lembre que essa região é construída para 
a estatística definida no passo 2, usando os valores do parâmetro hipotetizados por H 0 . 
Passo 4 Use as observações da amostra para calcular o valor da estatística do teste. 
Passo 5, Se o valor da estatística calculado com os dados da amostra não pertencer à 
região crítica, não rejeite H 0 ; caso contrário, rejeite H 0 . 

Procuraremos, sempre que fizermos teste de hipóteses, distinguir bem esses cinco 
passos. Finalmente um comentário sobre H 0 e o erro de tipo I. Devemos tomar como H 0 
aquela hipótese, que, rejeitada, conduza a um erro de tipo I mais importante de evitar. 
Vejamos um exemplo devido a Neyman (1978). Suponha um experimento para se deter¬ 
minar se um produto A é ou não cancerígeno. Após realizado o teste, podemos concluir: 
(i) A é cancerígeno ou (ii) A não é cancerígeno. Cada uma dessas conclusões pode estar 
errada e temos os dois tipos de erro já mencionados, dependendo de qual hipótese seja 
H 0 . Do ponto de vista do usuário do produto, a hipótese a ser testada deve ser 

H 0 : A é cancerígeno, 

pois a probabilidade de erro na rejeição dessa hipótese, se ela for verdadeira, deve ser 
um valor muito pequeno. Outros exemplos estão contidos no Problema 3. 

12.5 Testes sobre a Média de uma População com Variância 
Conhecida 

Vejamos, agora, uma aplicação dos cinco passos definidos na seção anterior, para 
testar a hipótese de que a média de uma população /u seja igual a um número fixado n 0 , 
supondo-se a variância <r 2 dessa população conhecida. 

Exemplo 12.2. Uma máquina automática para encher pacotes de café enche-os segundo 
uma distribuição normal, com média /u e variância sempre igual a 400 g 2 . A máquina foi 
regulada para /u = 500 g. Desejamos, periodicamente, colher uma amostra de 16 pacotes e 
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verificar se a produção está sob controle, isto é,se/u = 500 g ou não. Se uma dessas amostras 
apresentasse uma média x = 492 g, você pararia ou não a produção para regular a máquina? 
Vejamos como testar essa hipótese. 

Passo 1. Indiquemos por X o peso de cada pacote; então, X ~ N(/u, 400). E as hipóteses 
que nos interessam são: 

H 0 : ju = 500 g, 

H 1 : ju 500 g, 

pois a máquina pode desregular para mais ou para menos. 

Passo 2. Pela afirmação do problema, cr 2 = 400 será sempre a mesma; logo, para todo /u, 
a média X de 16 pacotes terá distribuição N(/u, 400/16), de modo que o desvio padrão 
(ou erro padrão) de X é o- = 5. Em particular, se H 0 for verdadeira, X ~ N (500,25). 

Passo 3, Vamos fixar a = 1%; pela hipótese alternativa, vemos que H 0 deve ser rejeita¬ 
da quando X for muito pequena ou muito grande (dizemos que temos um teste bilate¬ 
ral). Portanto, nossa região crítica será como a da Figura 12.5. 


Figura 12.5: Região crítica para o teste H 0 : = 500 VS H 1 : # 500 do Exemplo 12.2. 



Da tabela da curva normal padronizada obtemos que 

z x = -2,58 = (X Cl - 500)/5 => x Cl = 487,1, 
z 2 = 2,58 = (x C2 - 500)/5 =* x C2 = 512,9. 

Segue-se que a região crítica é 

RC = {x G IR |x ^ 487,1 ou x > 512,9}. 

Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular éx 0 = 492. 

Passo 5 Como x 0 não pertence à região crítica, nossa conclusão será não rejeitar H 0 . 
Ou seja, o desvio da média da amostra para a média proposta por H 0 pode ser conside¬ 
rado como devido apenas ao sorteio aleatório dos pacotes. 

A situação analisada não é muito realista: conhecer a variância da população. O 
caso mais geral, de média e variância desconhecidas, será tratado na seção 12.10. 
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6. Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição 
normal, com desvio padrão 2 kg. A diretoria de uma firma que fabrica esse produto resol¬ 
veu que retiraria o produto da linha de produção se a média de consumo per capita fosse 
menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma 
pesquisa de mercado, tomando-se uma amostra de 25 indivíduos, e verificou-se que 

X, =180 kg, ondeXj representa o consumo mensal do i-ésimo indivíduo da amostra. 

(a) Construa um teste de hipótese adequado, utilizando a =0,05, e com base na amostra 
colhida determine a decisão a ser tomada pela diretoria. 

(b) Qual a probabilidade 0 de se tomar uma decisão errada se, na realidade, a média 
populacional for p = 7,8 kg? 

(c) Se a diretoria tivesse fixado a = 0,01, a decisão seria a mesma? (Justifique sua resposta.) 

(d) Se o desvio da população fosse 4 kg, qual seria a decisão, com a = 0,05? (Justifique 
sua resposta.) 

7. A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o 
tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da 
ordem de 60 horas/homem por ano e desvio padrão de 20 horas/homem. Tentou-se um 
programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove 
indústrias e medido o número de horas/homens perdidas por acidente, que foi de 50 horas. 
Você diria, no nível de 5%, que há evidência de melhoria? 

8. O salário médio dos empregados das indústrias siderúrgicas de um país é de 2,5 salários 
mínimos, com um desvio padrão de 0,5 salários mínimos. Uma indústria é escolhida ao 
acaso e desta é escolhida uma amostra de 49 empregados, resultando um salário médio de 
2,3 salários mínimos. Podemos afirmar que esta indústria paga salários inferiores à média 
nacional, com o nível de 5%? 

9. Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que 
fabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratório realiza 6 análises 
desse índice, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o índice de nicotina se distribui 
normalmente, com variância igual a 4,86 mg 2 . Pode-se aceitar, no nível de 10%, a 
afirmação do fabricante? 

12.6 Teste para Proporção 

Vamos usar os passos descritos na seção 12.4 para mostrar a construção do teste 
para proporções. 

Passo 1, Temos uma população e uma hipótese sobre a proporção p de indivíduos por¬ 
tadores de certa característica. Esta hipótese afirma que essa proporção é igual a certo 
valor p 0 . Então, 

H 0 :p = p 0 . 

0 problema fornece informações sobre a alternativa, que pode ter uma das três 
formas abaixo: 
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(i) H 1 : p ^ p Q (teste bilateral); 

(ii) H 1 : p > p 0 (teste unilateral à direita); e 

(iii) H 1 : p < p 0 (teste unilateral à esquerda). 

Passo 2 Como vimos na seção 10.9, a estatística p, a proporção amostrai, tem uma 
distribuição aproximadamente normal, a saber, 



Passo 3. Fixado um valor de a, devemos construir a região crítica para p, sob a suposi¬ 
ção de que o parâmetro definido por H 0 seja o verdadeiro. Ou seja, podemos escrever 



e, conseqüentemente, teremos a re gião crítica da Figura 12.6, supondo a alternativa (i) 
acima; sendo que d = Z( 1- a/2) Vp 0 (l - p 0 )/n e Z(p) é o p-quantiI da normal padrão. 

O quarto e quinto passos irão depender da amostra, e o procedimento está descrito 
no exemplo seguinte. 

Figura 12.6; Região crítica para o teste H 0 : p =p o VS H 1 : p + p o . 



P 


Exemplo 12.3. Uma estação de televisão afirma que 60% dos televisores estavam 
ligados no seu programa especial da última segunda-feira. Uma rede competidora 
deseja contestar essa afirmação e decide usar uma amostra de 200 famílias para um 
teste. Qual deve ser o procedimento adotado para avaliar a veracidade da afirmação da 
estação? No passo 4 a seguir daremos o resultado da amostra, pois é importante ficar 
claro que esse resultado não deve influenciar a escolha da alternativa. 

Passo 1 Vamos colocar à prova a afirmação da estação, isto é, 

H 0 : p =0,60. 

Sabemos que, se essa hipótese não for verdadeira, espera-se uma proporção menor, 
nunca maior. A estação divulgaria o máximo possível. Isso nos leva à hipótese alternativa 

H 1 : p < 0,60. 
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Passo 2 A estatística a ser usada é p, a proporção de 200 famílias que assistiram ao 
programa na última segunda-feira, e da teoria sabemos que 


p ~ N 


P- 


pU-pM 

200 í 


Passo 3. Fixaremos a = 0,05 e sob a suposição que H 0 seja verdadeira, 

p ~ N (0,60, 0,24/200), 
o que irá fornecer a região crítica (veja a Figura 12.7) 

RC = {p G IR lp 0,544}. 


Figura 12.7: Região crítica para o teste H 0 : p = 0,60 vs H 1 : p < 0,60 do 
Exemplo 12.3. 



De fato, devemos achar o valor p c , tal que P(p p c ) = 0,05, e usando a aproxima¬ 
ção normal acima, teremos 


PZ 


p c - 0,60 
V 0,24/200 


0,05, 


o que implica 


& ~ 0,60 = -1,645, 
V0, 24/200 


o valor -1,645 sendo obtido da normal padronizada. Segue-se que p c = 0,544, 
correspondendo à região crítica acima. 

Passo 4. Admitamos que, da pesquisa feita com as 200 famílias, obtivemos 104 pessoas 
que estavam assistindo ao programa. A proporção da amostra será p = 104/200 = 0,52. 

Passo 5, Do resultado do passo anterior, vemos que 0,52 e RC; portanto, somos leva¬ 
dos a rejeitar H 0 . Isto é, há evidências que a audiência do programa de segunda-feira 
não foi de 60% e sim inferior a esse número. 
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10. Uma pessoa gaba-se de adivinhar qual será o resultado do lance de uma moeda, mas é 
preciso que os presentes não o perturbem com pensamentos duvidosos. Para testar tal 
capacidade, lançou-se uma moeda perfeita 6 vezes, e o adivinhador acertou 5. Qual 
seria sua conclusão? 

11.0 consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% das 
unidades fabricadas apresentam defeito. Para confirmar sua acusação, ele usou uma 
amostra de tamanho 50, onde 27% das peças eram defeituosas. Mostre como o fabrican¬ 
te poderia refutar a acusação. Utilize um nível de significância de 10%. 

12. Um fabricante garante que 90% dos equipamentos que fornece a uma fábrica estão de 
acordo com as especificações exigidas. O exame de uma amostra de 200 peças desse equi¬ 
pamento revelou 25 defeituosas. Teste a afirmativa do fabricante, nos níveis de 5% e 1%. 

13. Os produtores de um programa de televisão pretendem modificá-lo se for assistido regular¬ 
mente por menos de um quarto dos possuidores de televisão. Uma pesquisa encomendada 
a uma empresa especializada mostrou que, de 400 famílias entrevistadas, 80 assistem ao 
programa regularmente. Com base nos dados, qual deve ser a decisão dos produtores? 


12.7 Poder de um Teste 

Vimos que, na construção de um teste de hipóteses, procuramos controlar o erro 
de tipo I, fixando sua probabilidade de ocorrência, a, e construindo a região crítica de 
modo que P(RClH 0 verdadeira) = a. Ou seja, admitindo que H 0 seja verdadeira, estamos 
admitindo conheci do(s) o(s) parâmetro(s) que define(m) a distribuição da estatística 
usada no teste. 

Por outro lado, a probabilidade do erro do tipo II, na maioria dos casos, não pode 
ser calculada, pois a hipótese alternativa usualmente especifica um conjunto de valo¬ 
res para o parâmetro. Voltemos ao exemplo da seção anterior. 

Exemplo 12.2. (continuação) No exemplo da máquina de encher pacotes de café, a v.a. X, 
que descrevia o peso de cada pacote, tinha uma distribuição normal com média /u e variância 
400, de modo que a média amostrai X ~ A/(500, 25), sob a hipótese H 0 . Esse fato foi 
utilizado para determinar a região crítica RC = {X e IR \ X < 487,1 ou x> 512,9} e nossa 
regra de decisão para verificar se a máquina estava ou não produzindo sob controle foi: 

Se x e RA, a máquina está sob controle; se X e RC, não está, 

onde RA é a região de aceitação do teste, isto é, o complementar de RC em relação a 
IR e, portanto, dada no nosso caso por RA = {x e /fí|487,l X 512,9}. 

A probabilidade /3 do erro de tipo II não pode ser calculada, a menos que se especifique um 
valor alternativo para /u. Segue-se que a função característica de operação do teste é dada por 

p[jj) = P (aceitar H 0 \_p) = P (X £ RA \/j) 

= P (487,1 « X ^ 512,9) \/u). 
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Por exemplo, se a máquina se desregular para n = 505, teremos 

j8( 505) = P (X G RA \ju = 505) = P (-3,58 ^ Z « 1,58) = 94,28%, 

usando o fato que agora X - A/(505, 25). Lembre-se de que supomos que a 2 = 400, sempre! 

Para qualquer outro valor do parâmetro /u podemos encontrar o respectivo valor de 
13, para a regra de decisão adotada. No Quadro 12.4 temos as decisões que podemos 
tomar e suas respectivas implicações. 


Quadro 12.4: Decisões possíveis para o teste H 0 : n = 500 versus H ] : /í 4- 500 


Decisão 

Valor real do parâmetro 

H 0 : n = 500 

500 

a máquina está 
sob controle: /r = 500 

P(RA | H 0 ) = 0,99 

P(RA | H 1 ) = p 
depende de valor 
alternativo de fu 

a máquina não está 
sob controle: /u ¥= 500 

P(RC | H 0 ) = 0,01 

P(RC | HJ = 1-/3 
depende de valor 
alternativo de /1 


Observe, por exemplo, que 1 - [3[ 500) = P(rejeitar H 0 \/u = 500) = a = 0,01. 

A quantidade 1 - p(p) é usualmente chamada de poder ou potência do teste, e é a 
probabilidade de rejeitar a hipótese H 0 , dado um valor qualquer de ju, especificado ou 
não pela hipótese alternativa, e será denotado por j i/j). No nosso exemplo, 

n(/j) = P (rejeitar H 0 Iju) = P (X < 487,1 ou X > 512,9 |/i). 

Na Tabela 12.1 temos alguns valores de (3[jj) e de n(/u), para diferentes valores de 
/i, e na Figura 12.8 a representação gráfica da determinação dessa probabilidade. Ob¬ 
serve que quanto maior for a distância entre o valor fixado em H Q (pi = 500) e o valor 
atribuído para a hipótese alternativa, maior será a probabilidade de tomar a decisão 
correta. Na Figura 12.9 temos o gráfico de n(/u) para os valores de ^ da Tabela 12.1. 


Tabela 12.1 : Valores de P(/u) e k(/u), usando a regra de decisão RC = (x €E IR |r =s 487,1 ou X > 512,9} 


Verdadeiro 

valor de /u 

7r(/j) (em %) 

P(n) (em %) 

A esquerda de 500 

À direila de 500 

500 

500 

1,0 

99,0 

498 

502 

1,7 

98,3 

495 

505 

5,7 

94,3 

492 

508 

16,4 

83,6 

490 

510 

28,1 

71,9 

487 

513 

49,0 

51,0 

485 

515 

66,3 

34,7 

480 

520 

92,1 

7,9 

475 

525 

99,2 

0,8 
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Figura 12.8 Determinação do poder para 
o teste do Exemplo 1 2.2. 



As seguintes propriedades de n(/u) são facilmente verificadas: 

(i) n(- °o) = 7r(+o°) = 1; 

(ii) tt(500) = a\ 

(iii) n decresce para /u < 500 (isto é, dnld/u < 0 para /u < 500) e n cresce para /u > 500 
(isto é, dnld/u > 0, para /u > 500). 

Vemos que n(/u) indica a probabilidade de uma decisão correta, para as diversas 
alternativas do parâmetro e pode ser usada para decidir entre dois testes para uma 
mesma hipótese. 

Exemplo 12.4. Se, no Exemplo 12.2, a amostra colhida fosse de 100 pacotes em vez de 
16, e mantivéssemos o mesmo nível de significância a = 1%, a nova região crítica seria 

RC = {x G IR |x 494,8 ou x s* 505,2}. 

Construindo a função poder para esse teste, obtemos a curva tracejada na Figura 12.9. 
Verifique essas afirmações. 

Observando as duas curvas na Figura 12.9, notamos que para todos os valores sob a 
hipótese alternativa, a probabilidade de uma decisão correta é maior para amostras de 
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tamanho 100 do que de tamanho 16. Dizemos, nesse caso, que o teste baseado em 
amostras de tamanho 100 é mais poderoso do que o teste baseado em amostras de tama¬ 
nho 16. Esse fato está de acordo com a intuição de que um teste com amostras maiores 
deve levar a melhores resultados. 

De modo geral, se quisermos testar 

H 0 -.e = e 0 
H 1 \ G ¥= O 0 , 

e determinada a RC do teste, baseada na estatística 0, podemos dar a seguinte defi¬ 
nição geral. 

Definição. A função poder (ou potência) do teste de H 0 contra H 1 é definida por 

?r(0) =P(G e RC|0), 

ou seja, é a probabilidade de rejeitar a hipótese nula, como função de 0. 

O gráfico dessa função é semelhante àqueles da Figura 12.9, e n(G) tem as proprie¬ 
dades (i)-(iii) acima, substituindo 500 por 0 O . 

Se tivermos hipóteses alternativas unilaterais, da forma H 1 : 0 < 0 O ou H l : 0 > 0 O , 
obteremos os gráficos da Figura 12.10. 


Figura 12.10: Curvas de poder para alternativas unilaterais. 



Nos exemplos anteriores fixamos o tamanho da amostra, n, e o nível de significância, a. 
Suponha que queiramos determinar o tamanho da amostra e os limites da RC, para 
alcançarmos dado poder para determinado valor do parâmetro. No Exemplo 12.2 po¬ 
deríamos, por exemplo, fixar /r(510) = 0,80 e zr(500) = 0,05 (o nível de significância). 
Dados esses valores, podemos determinar n e a RC. Veja o Problema 33. 
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14. Suponha que estejamos testando H 0 : p =0,5 contra H 1 : p # 0,5, e que, para uma amostra 

de tamanho n = 10, decidimos pela região crítica RC = {0,1, 2, 8, 9,10}. 

(a) Determine o nível de significância a. 

(b) Calcule o poder do teste para p = 0,2, 0,4, 0,6, 0,8. Faça um gráfico do poder como 
função de p. 

(c) Qual o poder do teste para p =0,5? 

15. Sendo X o custo de manutenção de um tear, sabe-se queX ~ N(jU, 400). Para testar a 

hipótese H 0 : p = 200, contra a alternativa H x : ju> 200, será usada uma amostra de 

25 teares. 

(a) Fixando-se a =5%, encontre a correspondente RC. 

(b) Atribuindo-se valores arbitrários para p, esboce a função poder do teste. 

(c) Para que valores de ,u o poder será maior do que 50%? 

12.8 Valor-p 

0 método de construção de um teste de hipóteses, descrito nas seções anteriores, 
parte da fixação do nível de significância a. Pode-se argumentar que esse procedi¬ 
mento pode levar à rejeição da hipótese nula para um valor de a e à não-rejeição para 
um valor menor. Outra maneira de proceder consiste em apresentar a probabilidade de 
significância ou nível descritivo ou ainda valor-p do teste. Os passos são muito pare¬ 
cidos aos já apresentados; a principal diferença está em não construir a região crítica. 
O que se faz é indicar a probabilidade de ocorrer valores da estatística mais extremos 
do que o observado, sob a hipótese de H 0 ser verdadeira. 

Exemplo 12.5, Voltemos ao Exemplo 12.3, onde 

H 0 : p =0,60. 

Como vimos, admitindo essa hipótese verdadeira, p ~ A/(0,60; 0,24/200). Colhida a 
amostra obtivemos p 0 = 104/200 = 0,52. Portanto, podemos calcular qual a probabilida¬ 
de de ocorrerem valores de p mais desfavoráveis para H 0 do que esse. É evidente que 
quanto menor for p, maior será a evidência contra H 0 : p = 0,60. Assim, calculemos 

V2ÕÕ(0,52 - 0,60 ) 

VÕ724 

= P(Z < -2,30) =0,01 =1%. 

Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a 
probabilidade de encontrarmos uma amostra de 200 famílias com 52% ou menos de 
audiência é de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 
em 100, ou então a hipótese formulada não é aceitável. Nesse caso, somos levados a essa 
segunda opção, ou seja, os dados da amostra sugerem que a hipótese H 0 deve ser rejeitada. 


P(p< 0,52 | p = 0,60) =p( 
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O procedimento está ilustrado na Figura 12.11. O valor-p do teste será ã= 0,01. 


Figura 12.11: Determinação do valor-p para o Exemplo 12.5. 



Exemplo 12.6. U m antibiótico A traz em sua bula a seguinte citação: "Nas broncopneumonias, 
a ação antiinflamatória de A é colocada em evidência pelo estudo dos parâmetros 
ventilatórios em duplo-cego contra placebo. Durante o tratamento com A pode-se 
observar uma melhora significativa em relação ao placebo, da capacidade vital (p < 0,05) 
e o VEMS(p < 0,001) e do débito respiratório máximo (p < 0,001)”. 

Esse exemplo ilustra o uso cada vez mais difundido em muitas áreas aplicadas 
do conceito de valor-p. As afirmações do tipo “p < 0,05" acima referem-se a esse 
conceito. Vale a pena comentar um pouco sobre "estudos duplo-cego", menciona¬ 
dos acima. Nesse tipo de estudo, um número n de indivíduos é dividido em dois 
grupos de tamanhos aproximadamente iguais; a seleção dos indivíduos que vão per¬ 
tencer a cada grupo é aleatória. Os indivíduos de um grupo recebem o tratamento (o 
antibiótico A, no caso), e os do outro grupo recebem placebo (uma substância inóqua). 
Os pesquisadores que acompanham o experimento não sabem quem recebeu trata¬ 
mento e quem recebeu placebo, o mesmo acontecendo com os pacientes, daí o nome 
duplo-cego. 

Podemos considerar probabilidades de significância bilaterais. Um procedimento 
é tomar o valor-p bilateral como sendo igual a duas vezes o valor-p unilateral. Esta 
prática é razoável quando a distribuição da estatística do teste, sob H 0 , for simétrica. 

Exemplo 12.7, Uma companhia de serviços de ônibus intermunicipais planejou uma 
nova rota para servir vários locais situados entre duas cidades importantes. Um estudo 
preliminar afirma que a duração das viagens pode ser considerada uma v.a. normal, 
com média igual a 300 minutos e desvio padrão 30 minutos. As dez primeiras viagens 
realizadas nessa nova rota apresentaram média igual a 314 minutos. Esse resultado 
comprova ou não o tempo médio determinado nos estudos preliminares? 

Passo 1. Indicando por X a duração de cada viagem e por p =E(X), queremos testar 

H Q \ iu = 300, 

H 1 : ju * 300. 
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Passo 2 Amostras de dez viagens terão média X ~ N (p, a 2 /10). 

Passo 3, Sob a hipótese de que H 0 é verdadeira, e pelo fato de a 2 ser conhecido (a = 
30), teremos 

X ~ N (300, 900/10). 

Passo 4. Como o valor observado = 314, podemos encontrar a probabilidade de 
ocorrerem amostras com valores de X mais extremos do que esse: 

P (X > 314) =p(z> 31 |j 49 3QQ ) = P (Z > 1,48) = 0,07. 

Como a distribuição de X é normal, portanto simétrica, tomamos ã = 0,14. Nosso 
problema consiste em decidir se essa probabilidade corresponde ou não à chance de 
ocorrer um evento raro. Por ser uma probabilidade não muito pequena, podemos con¬ 
cluir que não existe muita evidência para rejeitar H 0 . Assim, os estudos preliminares 
parecem estar corretos. 

Um problema que pode ocorrer com o procedimento acima, de dobrar a probabi¬ 
lidade, é que o valor de ã pode ser maior do que um. Por isso, às vezes é preferível 
anunciar o valor do valor-p unilateral e a direção segundo a qual a observação afasta-se 
de H 0 . No exemplo, o resultado indica que a chance de ocorrerem amostras com mé¬ 
dias iguais ou superiores a 314 é 7%, que é um valor ainda não pequeno. Para outro 
método, ver o Problema 43. 

Se indicarmos genericamente por âo valor-p, rejeitaremos H 0 para aqueles níveis 
de significância a maiores do que ã. No Exemplo 12.7, rejeitaremos H 0 , por exemplo, 
se a = 0,10, mas não a rejeitaremos se a = 0,05 ou a = 0,01. Ou seja, se o nível 
descritivo for muito pequeno, como o caso ã < 0,01 do Exemplo 12.6, há evidências 
de que a hipótese não seja válida. Como vimos nesse exemplo, a probabilidade de 
significância é muitas vezes denotada por p na literatura (p-value). 

Em nosso procedimento de testar uma hipótese estamos usando uma escala de evidên¬ 
cias sugerida por Fisher (1954). Suponha que estejamos testando H 0 contra H 1 e, como 
vimos, rejeitamos H 0 se o valor-p ã for "bastante pequeno". A Tabela 12.2, extraída de 
Efron e Gous (1997), ilustra a escala de Fisher, contra H 0 (ou a favor de HJ. 


Tabela 12.2: Escala de significância de Fisher. 


valor-p 

0,10 

0,05 

0,025 

0,01 

0,005 

0,001 

Natureza da 
evidência 

marginal 

moderada 

substancial 

forte 

muito forte 

fortíssima 


Assim, um valor de ã = 0,01 indica uma evidência forte contra a validade de H 0 , 
à = 0,05 indica uma evidência moderada etc. É interessante notar que Fisher tomou 
como ponto de referência o valor 0,05: valores do valor-p menores do que 0,05 indi¬ 
cam que devemos rejeitar a hipótese nula. As considerações feitas por Fisher referiam- 
se a testes do qui-quadrado (veja o Capítulo 14). 
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16. Suponha que queiramos testar H 0 : /u =50 contra H x : ju > 50, onde ju éa média de uma 
normal N(ju, 900). Extraída uma amostra de n - 36 elementos da população, obtemos 
x = 52. Calcule o valor-pâdo teste. 

17. Os novos operários de uma empresa são treinados a operarem uma máquina, cujo 
tempo X (em horas) de aprendizado é anotado. Observou-se que X segue de perto a 
distribuição A/(25, 100). Uma nova técnica de ensino, que deve melhorar o tempo de 
aprendizado, foi testada em 16 novos empregados, o quais apresentaram 20,5 horas 
como tempo médio de aprendizado. Usando o valor-p, você diria que a nova técnica é 
melhor que a anterior? 


12.9 Teste para a Variância de uma Normal 

Um teste sobre a variância desconhecida de uma variável, com distribuição nor¬ 
mal, irá usar a distribuição qui-quadrado, introduzida na seção 7.6. 

Considere a média amostrai X e a variância amostrai S 2 , ambas obtidas de uma 
amostra de tamanho n, (X v ..., X n ) de X ~ N(/u, o 2 ). A soma 



V a 1 \ a ) 

terá distribuição X 2 (n), pois cada (X. - jj)!o terá distribuição N(0,l). Logo, se definirmos 



( 12 . 1 ) 


vemos que 



( 12 . 2 ) 


tem distribuição X 2 (n). Observe que o estimador ô\ é muito parecido com o estimador 
d 2 , definido em (11.6), com /u tomando o lugar de X. É muito importante conhecer a 
distribuição de X” = 1 (*, - XY, para se ter a distribuição de S 2 , que será usada no teste 
desta seção. Note inicialmente que 


l(X r v) 2 =l{(X r X)+(X - ju)} 2 

i =1 i =1 


n n 


= I(X i -X) 2 + 2(X - Ai)X(X,- X) + n(X - n) 2 , 

i =1 i =1 


e de E, (X f - X) = 0, vem que 


l(x r mV = l(x r xy+n(x - U Y. 

i =1 /' =1 


(12.3) 
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Dividindo ambos os membros por cr 2 , e reescrevendo (12.3) de forma conveniente, teremos 




(12.4) 


O primeiro membro da expressão (12.4) tem distribuição X 2 (n), como vimos aci¬ 
ma. O último termo de (12.4) tem distribuição X 2 (l). Seria, então, razoável supor que 
o primeiro termo do segundo membro tenha distribuição X 2 (n - 1). A comprovação 
desse fato exige recursos fora do alcance deste livro, mas podemos resumir o resulta¬ 
do da seguinte maneira. 


Teorema 12.1. Seja [Z v ..., Z n ) uma amostra aleatória simples retirada de uma popula¬ 
ção A/(0,1). Então: 

(i) 1 tem distribuição N (0,1/n); 

(ii) as variáveis Z e 'Z j=1 ( Z ( - Z) 2 são independentes; e 

(iü) X" =1 (Z. - Z ) 2 tem distribuição X 2 (n - 1). 

Corolário 12.1. A variável aleatória (n - l)S 2 /a 2 tem distribuição j 2 (n - 1). 


Prova. De fato, 


(n - 1)S 2 _ n - 1 1 


V( X -x) 2 =Z 

1 i =1 i =1 


X ; - X \2 




bastando escrever (X j - X)/o = [x. - jj)/o - (X - /j)lcr. 

A expressão (12.4) e a própria definição de X 2 garantem uma propriedade muito 
útil: a soma de duas v.a. independentes, cada uma com distribuição X 2 , é uma v.a. 
também com distribuição X 2 \ 

X 2 (p) + X 2 (q) =X 2 (p +q). 

Voltemos ao nosso problema original. Queremos testar 

H 0 : o 2 = cr 2 , 

H 1 : a 2 <r 2 . 

Nossas suposições são que X ( . ~ N(/u, o 2 ), i = 1, ..., n e os X ( . são independentes. A 
estatística do teste será, sob H 0 , 

Z 2 = (n ~ ] )52 ~X 2 (n - 1). (12.5) 

Como temos um teste bilateral, a região crítica será da forma RC =(0, X\] U [X\, +«>), 
tal que 

P(X 2 G RC|H 0 ) =P(0 < Z 2 < X\ ou X 2 > X\) = a, 
sendo a o nível de significância do teste, fixado a pr/ori. 
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Observado o valor s 0 2 da estatística S 2 , obteremos o valor xl = ——^o_. Se xl e RC, 

Co 

rejeitamos H 0 ; caso contrário, aceitamos H 0 . 

Exemplo 12.8. Uma das maneiras de manter sob controle a qualidade de um produto 
é controlar sua variabilidade. Uma máquina de encher pacotes de café está regulada 
para enchê-los com média de 500 g e desvio padrão de 10 g. O peso de cada pacote X 
segue uma distribuição Niju, o 2 ). Colheu-se uma amostra de 16 pacotes e observou-se 
uma variância de S 2 = 169 g 2 . Com esse resultado, você diria que a máquina está 
desregulada com relação à variância? 

Estamos interessados em testar, então, 

H 0 : o 2 = 100, 

: cr 2 # 100. 

A estatística para realizar o teste é (12.5), com n = 16. Fixado o nível de significância a 
em 5%, teremos da Tabela IV que a região crítica é dada por RC ={X 2 : 0 X 2 6,262 ou 
X 2 > 27,488}. Veja a Figura 12.12. O valor observado da estatística é 

V 2 _ (n- Dso _ (15)(169) _ ^ « 

õ\ íõõ 

Como X] <£ RC, somos levados a aceitar H 0 , isto é, a máquina está sob controle 
quanto à variância. 


Figura 12.12: Região crítica para o Leste do Exemplo 1 2.8. 



A construção do IC(cr 2 ; 7 ) é feita a partir da expressão 

pfes ln - 1>5> 


que permite obter a seguinte desigualdade: 

to - D5 2 ^ ^ 

*2 

que será 0 IC procurado. Veja a Figura 12.13. 


^ xij = 7 , 

( 12 . 6 ) 

(n - 1)S 2 

(12.7) 

x\ 
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Figura 12.13 Valores críticos para a construção de um inter¬ 
valo de confiança para a variância. 



Exemplo 12.9. Os dados abaixo referem-se às vendas diárias, em reais, durante uma 
semana, de carros de uma revendedora. Construir um IC(<r 2 ; 90%). 

Vendas : 253, 187, 96, 450, 320, 105. 

Inicialmente, calculamos a variância amostrai, que é s 0 2 = 18.460; em seguida, os 
valores X\ e Z 2 2 que satisfaçam (12.6): 

P (1,145 X 2 (5) ss 11,070) = 0,90. 

Substituindo em (12.7) obtemos 

IC(cr 2 ; 0,90) = [8.338; 80.611], 


18. De uma população X — A/ (50,100) retira-se uma amostra de dez elementos e calculam-se os 
valores de <7* e 5 2 . Encontre os valores pedidos abaixo, com a maior precisão possível. 

(a) Se P(< 7* > a) - 10%, encontre o valor de a. 

(b) Sabendo-se que P(5 2 < a) =5% e P{S 2 > b) = 5%, encontre a e b. 

(c) P(S 2 < 163,16) = a, encontre a. 

(d) P(S 2 > 100) = a, encontre a. 

(e) P(S 2 < 18) = a, encontre a. 

(f) Se o valor observado de S 2 foi 180, qual a probabilidade de encontrar uma amostra 
que produza um S 2 maior do que o observado? 

19. Observou-se a produção mensal de uma indústria durante vários anos, verificando-se 
que ela obedecia a uma distribuição normal, com variância 300. Foi adotada uma nova 
técnica de produção e, durante 24 meses, observou-se a produção mensal. Após esse 
período, constatou-se que X = 10.000 e S 2 = 400. Há razões para se acreditar que a 
variância mudou, ao nível de 20%? 

20. Numa linha de produção, é muito importante que o tempo gasto numa determinada 
operação não varie muito de empregado para empregado. 

(a) Que parâmetro estatístico poderia ser usado para avaliar esse fato? Por quê? 
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(b) Se 11 empregados apresentam os tempos abaixo para realizar essa operação, qual 
seria a estimativa para a parâmetro acima? 


125 135 115 120 150 130 

125 145 125 140 130 


12.10 Teste sobre a Média de uma Normal com Variância 
Desconhecida 


Vimos, na seção 12.5, como testar a média de uma normal, supondo que a variância 
seja conhecida. Comentamos que essa não é uma suposição realista, logo iremos su¬ 
por agora que temos uma v.a. X, com distribuição normal, com média /u e variância a 2 
desconhecidas. 


No Capítulo 7 introduzimos a distribuição t de Student. Veremos, a seguir, como 
ela pode ser usada para testar hipóteses sobre /u nessa situação. 


Consideremos a estatística 

X - n 
Sl4n ' 


( 12 . 8 ) 


Inicialmente, dividamos o numerador e denominador pelo desvio padrão o da 
população, e teremos 

m(X - n)la) 

(S/a) 

O numerador Z = (V~n (X - /j))/c tem distribuição A/(0, 1), como já foi visto. O 
quadrado do denominador pode ser escrito como 


(n -1)5 : 


I (n -1) = 


Y 


a í n - 1 

onde Y = (n - 1 )S 2 /a 2 . M as, como foi visto na seção anterior, se os X. forem normais, Y 
tem distribuição X 2 (n - 1); logo, a estatística (12.8) é o quociente entre uma v.a A/(0, 1) 
e a raiz quadrada de uma v.a X 2 (n - 1), dividida pelo número de graus de liberdade, e 
pelo Teorema 7.1 temos que 

Vn(X - u) 


t(n - 1). 


(12.9) 


Observe que Z e Y são independentes, pois X e S 2 são independentes, pelo 
Teorema 12.1 (ii). 

Estamos, agora, em condições de testar as hipóteses 

H 1 : li Yh n 0 - 

A hipótese alternativa poderia ser /u > /u 0 ou jj. < n 0 , o que mudaria apenas a região 
de rejeição de bilateral para unilateral (à direita ou à esquerda, respectivamente). 
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A estatística a ser usada é 

T = ~ ^ , (12.10) 

S 

que sabemos agora ter uma distribuição t de Student com (n - 1) graus de liberdade. Fixado 
o valor de a, podemos usar a Tabela V e encontrar o valor Ç-, tal que P (|T| < t c ) = 1 - a. Veja 
a Figura 12.14. 



Colhida a amostra de n indivíduos, calculamos os valores x 0 e s 2 das estatísticas X 
e S 2 , respectivamente, e depois o valor t 0 = V~n (x 0 - /u Q )l s 0 de T. Se o valor dessa 
estatística for inferior a - t c , ou superior a t c , rejeita-se H 0 . Caso contrário, aceita-se H 0 . 
Para a construção de intervalos de confiança, temos que 

p(-t r < <t r )= y , 

da qual segue o intervalo de confiança 

IC(ju; y) =X±t-S=, (12.11) 

7 Vn 

muito parecido com aquele da variância conhecida. 

Exemplo 12.10. Um fabricante afirma que seus cigarros contêm não mais que 30 mg 
de nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 
3 mg. No nível de 5%, os dados refutam ou não a afirmação do fabricante? 

Passo 1, As hipóteses aqui são: 

H Q \ /u = 30, 

H 1 :ju> 30. 

Passo 2. Supondo queX, a quantidade de nicotina por cigarro, tenha distribuição N(/u, a 2 ), 
a estatística 

V25(X - 30) 

' “ S 


terá distribuição t(24). 
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Passo 3, Por ser um teste unilateral, devemos procurar o valor t c tal que 

P (T > t c ) = 0,05. 

Da Tabela V, obtemos t c = 1,711, ou seja, a região crítica para a estatística T é 
RC =[1,711; +«[. 

Passo 4 O valor observado da estatística é 

t = 5(31,5- 30) 

0 3 

Passo 5. Como t 0 pertence à região crítica, rejeitamos H 0l ou seja, há evidências de que 
os cigarros contenham mais de 30 g de nicotina. 

Outra maneira de proceder é calcular o valor-p, ou seja, 

ã=P(T > t 0 |H 0 ) =P(T > 2,51 H 0 ) = 0,01. 

Esse valor pequeno de à leva à rejeição de H 0 . 

Para construir um IC (ju; 0,95), verificamos na Tabela V que o valor t r = 2,064 e, 
portanto, 

IC(aí; 0,95) = 31,5 ± (2,064) 3/V25, 

ou seja, 

IC(ax; 0,95) =]30,26; 32,74[. 

Antes de encerrar este capítulo cabe uma observação. Quando aceitamos uma 
hipótese, estamos concluindo que temos algum conhecimento sobre a distribuição da 
variável de interesse, já quando rejeitamos a hipótese, a distribuição da variável não 
fica especificada. A construção de intervalos de confiança desempenha um papel im¬ 
portante nessa situação. Ressaltamos, também, que temos usado a expressão "aceita¬ 
mos" a hipótese, quando o mais correto talvez fosse "não rejeitamos" a hipótese. 


21. Da população X ~ A/(50, 100) retirou-se uma amostra casual simples de tamanho 
n = 10, calculando-se o valor de X, S e o respectivo valor de t. 

(a) Se P (| X - 50 j < t5/VÍÕ) =90%, encontre o valor de t. 

(b) Se X - 48 eS 2 = 120, qual a probabilidade de encontrar um valor de t menor que o 
produzido por essa amostra? 

(c) Se S 2 = 120, calcule a P (| X - 501 < 2). 

22. O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos, com um 
desvio padrão de 15 minutos. Introduziu-se uma modificação para diminuir esse tempo, e, 
após certo período, sorteou-se uma amostra de 16 operários, medindo-se o tempo de 
execução de cada um. O tempo médio da amostra foi 85 minutos, e o desvio padrão foi 12 
minutos. Estes resultados trazem evidências estatísticas da melhora desejada? Em caso 
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afirmativo, estime o novo tempo médio de execução. (Apresente as suposições teóricas 
usadas para resolver o problema.) 

23. Estamos desconfiados de que a média das receitas municipaisper capita das cidades pequenas 
(0 - 20.000 habitantes) é maior do que a das receitas do estado, que é de 1.229 unidades. 
Para comprovar ou não essa hipótese, sorteamos dez cidades pequenas, e obtivemos os 
seguintes resultados: 1.230; 582; 576; 2.093; 2.621; 1.045; 1.439; 717; 1.838; 1.359. 

Obs.: Para facilitar os cálculos, informamos que a soma das observações é 13.500, e a 
soma dos quadrados das observações é 22.3 3 5.6 5 0 (13.5 00 2 = 182.2 5 0.000). 

(a) Mostre que o teste de hipótese usado, com a =0,05, levará à aceitação de que a 
média das cidades pequenas é igual à do estado. 

(b) Você não acha estranha essa conclusão quando observa que a média da amostra 
obtida é bem maior do que a média do estado? Como você explicaria isso? 

24. Deseja-se estimar qual a porcentagem média da receita familiar gasta com alimentação 
pelos moradores de uma grande vila industrial. Para isso, selecionou-se uma amostra de 
16 famílias, que apresentou os seguintes resultados: 

41 44 35 42 34 22 42 42 

38 62 29 63 38 45 48 40 

(a) Dê um IC de 95% para a porcentagem média de todas as famílias de moradores da vila. 

(b) Que suposição você fez para responder a pergunta anterior? 

12.11 Problemas e Complementos 

25. A precipitação pluviométrica anual numa certa região tem desvio padrão <7 = 3,1 e média 
desconhecida. Para os últimos 9 anos, foram obtidos os seguintes resultados: 30,5; 34,1; 
27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8. 

(a) Construa um teste de hipóteses para saber se a média da precipitação pluviométrica 
anual é maior que 30,0 unidades. Utilize um nível de significância de 5%. 

(b) Discuta o mesmo problema, considerando cdesconhecido. 

(c) Supondo que, na realidade, /J =33,0, qual a probabilidade de tirarmos uma conclu¬ 
são errada? 

26. Supõe-se que determinado tipo de indústria deva ter, em média, 30 empregados. Para testar 
tal hipótese, colhe-se uma amostra de 50 indústrias, cujo resultado está abaixo. Caso rejeite 
a hipótese, dê um intervalo de confiança para a verdadeira média (suponha queS 2 = c 2 ). 


N a de empregados 

Freqüência 

251-35 

8 

351-45 

10 

451-55 

13 

551-65 

10 

651-75 

9 


27. Uma fábrica de automóveis anuncia que seus carros consomem, em média, 11 litros por 
100 km, com desvio padrão de 0,8 litro. Uma revista resolve testar essa afirmação e 
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analisa 35 automóveis dessa marca, obtendo 11,3 litros por 100 km como consumo 
médio (considerar distribuição normal). O que a revista pode concluir sobre o anúncio da 
fábrica, no nível de 10%? 

28 . Um dos maiores problemas de uma grande rede de vendas a varejo é a adequação do 
estoque declarado com o real existente. Decidiu-se fazer a verificação através de procedi¬ 
mentos amostrais. Indicando por X o total em unidades monetárias de cada produto em 
estoque, verificou-se queX ~ N(p, 400). Serão sorteados 4 produtos. O total X de cada 
um será verificado e calcular-se-á a média X, que será a estatística de decisão. Numa 
determinada filial, o valor declarado de /u é 50. Havendo falta, esse parâmetro deve ser 
45; no caso de excesso, 58. 

(a) Defina H 0 e H v 

(b) Descreva os erros do tipo I e 11. 

(c) Fixando a = 10%, qual a regra de decisão para julgar se o estoque está correto ou não? 

(d) Calcule o erro /3. 

(e) Qual o significado de ae fi nesse problema? 

29 . Seja X uma v.a. com distribuição binomial, com n = 15. Considere H 0 : p & 0,5 contra 
H 1 : p < 0,5, com RC ={0,1,2}. 

(a) Calcule a probabilidade do erro de tipo I. 

(b) Calcule a probabilidade do erro de tipo II quando p - 0,3. 

(c) Esboce o gráfico do poder do teste. 

30 . OcustoX de manutenção deteares segue uma distribuição normal,X 400). Durante 

muito tempo, o parâmetro fi tem sido adotado como igual a 200. Suspeita-se que esse parâmetro 
aumentou, e só nos interessa saber se o novo parâmetro superior a 210. Assim, queremos 
planejar um teste em que a = 5% (quando p =200) e /3 = 10% (quando p =210). 

(a) Qual deve ser o tamanho da amostra? 

(b) Qual a RC nesse caso? 

31.0 número médio diário de clientes de um posto de gasolina tem sido 250, com um desvio 
padrão de 80 clientes. Durante uma campanha de 25 dias, em que os clientes recebiam 
um brinde, o número médio de clientes foi 280, com um desvio padrão de 50. Você diria 
que a campanha modificou a distribuição do número de clientes do posto? Descreva as 
suposições feitas para a resolução do problema. 

32 . A receita média, em porcentagem, dos quase 600 municípios de um estado tem sido 7%. O 
governo pretende melhorar esse índice e, para isso, está estudando alguns incentivos. Para 
verificar os efeitos desses incentivos, sorteou 10 cidades e estudou quais seriam as porcenta¬ 
gens investidas neles. Os resultados foram, em porcentagem, 8,10,9,11,8,12,16,9,12,13. 
Admitindo-se que esses números realmente venham a ocorrer, os dados trazem evidência de 
melhoria? Caso altere a média do estado, dê um intervalo de confiança para a nova média. 

33 . Para o problema anterior, construa IC (cr 2 ; 90%) e descreva as suposições consideradas 
para obtenção da resposta. 

34. A prefeitura de uma cidade quer estimar a proporção p dos moradores favoráveis à 
mudança do horário comercial, com o intuito de economizar combustível. Essa propor¬ 
ção deverá ser estimada com um erro máximo de 5%, a um nível de 90% de confiança. 
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(a) Que tamanho deverá ter a amostra se a proporção p esperada deve estar entre 20% 

e 50%? (Justifique a resposta.) 

(b) Numa amostra de 400 moradores, 160 foram favoráveis à mudança; qual seria o 
intervalo de confiança para p, nesse caso, com 7=0,95? 

35 . Numa pesquisa realizada com 2.000 proprietários de carros na cidade de São Paulo, 800 
responderam que pretendem mudar de carro no decorrer do próximo ano. Dê um IC de 
90% para a proporção de todos os proprietários de carros de São Paulo que pretendem 
mudar de carro no próximo ano. 

36 . Um fabricante de um certo tipo de aço especial afirma que seu produto tem um severo 
serviço de controle de qualidade, traduzido pelo desvio padrão da resistência à tensão, 
que não é maior do que 5 kg por cm 2 . Um comprador, querendo verificar a veracidade da 
afirmação, tomou uma amostra de 11 cabos e submeteu-a a um teste de tensão. Os 
resultados foram os seguintes: X = 263 e S 2 =48. Estes resultados trazem alguma evidência 
contra a afirmação do fabricante? Use a = 0,05. 

37. Um escritório de investimento acredita que o rendimento das diversas ações movimenta¬ 
das por ele foi de 24%. Mais ainda, a nova estratégia definida deve garantir uma maior 
uniformidade nos rendimentos das diversas ações. No passado, o desvio padrão do 
rendimento era da ordem de 5%. Para verificar as duas hipóteses, tomaram-se 8 empre¬ 
sas ao acaso, obtendo-se os seguintes rendimentos (dados em %): 23,6; 22,8; 25,7; 24,8; 
26,4; 24,3; 23,9 e 25. Quais seriam as conclusões? 

38 . Sendo X o número de sucessos em n = 10 provas de Bernoulli, queremos testar 
H 0 :p=0,6. 

(a) Se o teste for unilateral e rejeitarmos H 0 para valores pequenos deX, determine ã se 
o valor observado de X for 3. 

(b) Determine âse o teste for bilateral, na situação de (a), isto é, X =3. 

39 . Considere a situação do problema anterior e suponha que o valor observado seja 
X = 6. O que acontece no caso (b) do problema anterior? O resultado X = 6 suporta ou 
não H 0 ? 

40. Valor-p bilateral. Vimos no texto um procedimento para determinar â no caso bilateral. 
Outra possibilidade é fazer as probabilidades nas duas caudas complementares em ter¬ 
mos da distância à média (ou mediana) da distribuição sob H. Assim, se X for o valor 
observado deX e m for a média da distribuição, colocamos 

ã=P (X S3x) +P (X =sm - (x-m)), 

se X estiver na cauda superior e 

â=P(X «x) +P (X s=m+(m-x)), 

se X estiver na cauda inferior. 

Calcule âusando esse critério para os Problemas 41 e 42. 



Capítulo 1 3 


Inferência para 
Duas Populações 

13.1 Introdução 

Neste capítulo abordaremos o tópico importante de comparar duas populações P, e 
P 2 , baseados em dados fornecidos por amostras dessas populações. Como vimos, uma 
grande parte das técnicas usadas em Estatística supõe que as variáveis aleatórias 
envolvidas tenham distribuição normal. Alguns testes que trataremos envolverão a 
normal. Contudo, se essa suposição de normalidade for violada, procedimentos mais 
"robustos" têm de ser utilizados, e veremos exemplos de tal situação. 

Uma pergunta que aparece freqüentemente em Ciência é a seguinte: o método A é 
melhor do que o B? Em termos estatísticos, ela equivale a comparar dois conjuntos de 
informações, resultantes das medidas obtidas da aplicação dos dois métodos a dois 
conjuntos de objetos ou indivíduos. 

Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a "igual¬ 
dade" ou "equivalência" de duas populações. Por exemplo, suponha que estamos 
interessados em saber se alunos de duas regiões, A e B, tiveram desempenhos iguais 
em um mesmo teste nacional. Mais ainda, suponha que tenhamos os resultados do 
teste para "todos os alunos" das duas regiões, isto é, conhecemos as duas populações. 
Suponha que cálculos posteriores revelem que as médias e desvios padrões das duas 
populações sejam iguais, isto é, n A = n B ea A = o B . Será que isso equivale a dizer que os 
desempenhos nas duas regiões são equivalentes? Se uma análise mais cuidadosa não 
for feita, poderemos ser levados a responder afirmativamente a essa questão. Entretan¬ 
to, observando a Figura 13.1, vemos que é possível ter duas distribuições com os 
mesmos parâmetros acima, mas formas bastante distintas. 


Figura 13.1: Distribuições das populações A eB, 
com n k =n B =4, ct a =a B =1,16. 
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Esse fato nos remete à necessidade de também mencionarmos a forma da distri¬ 
buição. Especificada a forma, a igualdade dos parâmetros que identificam a curva 
implica a igualdade ou coincidência das duas populações. É bem pouco provável 
que um mesmo fenômeno obedeça a formas de distribuições distintas, como no 
exemplo da Figura 13.1. Seguir uma mesma distribuição, porém com parâmetros 
distintos, é mais verossímil. Como a normal é um modelo importante e seguido por 
muitas variáveis de interesse prático, estaremos admitindo essa forma, a não ser 
quando uma análise dos dados nos diga o contrário. 

Neste capítulo trataremos de várias situações, que passamos a descrever. 

1. Inferências para duas médias: amostras independentes. 

Aqui temos dados na forma de duas amostras, extraídas independentemente de cada 
população. É muito comum em experimentos do tipo "controle" versus "tratamento", 
nos quais o interesse principal é verificar o efeito desse último. O caso típico é aquele de 
comparar uma nova droga com uma padrão, usadas para o tratamento de uma doença. 

Exemplo 13.1. 

(a) Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao 
vivo para outro grupo. Queremos testar a hipótese de que o curso ao vivo é mais 
eficaz que o curso por meio da televisão. 

(b) Queremos comparar o efeito de duas rações, A e B, sobre o crescimento de porcos. 
Dois grupos de porcos em crescimento foram alimentados com as duas rações e após 
cinco semanas verificam-se quais foram os ganhos de peso dos porcos dos dois grupos. 

(c) 20 canteiros foram plantados com uma variedade de milho. Em dez deles um 
novo tipo de fertilizante é aplicado e nos outros um fertilizante padrão. Exami¬ 
nando-se as produções dos dois canteiros, queremos saber se há diferenças sig¬ 
nificativas entre as produções. 

Na maioria das vezes fica claro o que chamamos de controle e tratamento. No 
exemplo (c) acima, os canteiros tratados com o novo fertilizante seriam o grupo de 
tratamento, enquanto os demais, tratados com o fertilizante usual, constituiriam o gru¬ 
po de controle. Mas nos exemplos (a) e (b) essa distinção é apenas convencional. 

Formalmente, o modelo para o problema das duas amostras é o seguinte: as v.a. 
X v ..., X m representam as respostas do grupo de controle e são consideradas v.a. inde¬ 
pendentes, com a mesma distribuição, Pp Y v ..., Y n representam as respostas do grupo 
de tratamento e são v. a. independentes, com a mesma distribuição, P 2 . Além disso, X v 
..., X m , Y v ..., Y n são independentes entre si. 

A hipótese a ser testada é 

H 0 :P 1 = P 2 , (13.1) 

ou seja, queremos testar a homogeneidade das populações de onde as amostras foram 
extraídas. H 0 é chamada hipótese de homogeneidade. 
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O significado de (13.1) dependerá muito do interesse do pesquisador em considerar 
qual "tipo" de igualdade implicará a coincidência das duas distribuições. Admitamos que 
tanto P 1 como P 2 sigam uma distribuição normal, ou seja, P 1 ~ N(/i v o^) e P 2 ~ N(/a 2 , 
<? 2 ). Na Figura 13.2 temos as quatro situações possíveis. Observando os gráficos da Figu¬ 
ra 13.2 não temos dúvidas em reconhecer que as duas populações são iguais no caso (a) e 
diferentes no caso (d). Já nos outros dois casos, podem existir situações em que elas pos¬ 
sam ser consideradas iguais ou não. Por exemplo, uma pesquisa para verificar se o salário 
médio da região P 1 éo mesmo da região P 2 aceita como resposta verdadeira tanto a situa¬ 
ção (a) como a (b). Outra pesquisa para verificar se dois processos produzem peças com a 
mesma qualidade em termos de dispersão aceita como verdadeiras as situações (a) ou (c). 

Assim, a estratégia para comparar duas populações, por meio de seus parâmetros, 
envolve suposições sobre a forma das distribuições, para depois testar médias e 
variâncias. É comum estarmos interessados em testar apenas que P 2 e P 2 difiram em 
localização (ou posição), isto é, a alternativa a H 0 é que P 2 esteja à direita de P 2 , ou o 
contrário, mas que ambas tenham a mesma dispersão (caso n 2 ± n 2 e oí = o 2 da figu¬ 
ra). Nesse caso, H 0 será equivalente a 

H 0 : A = 0, (13.2) 

com A = ju 2 - n v 


Figura 13.2: (a) ^ = /i 2 , a, = a 2 (b) ^ = n 2 , a, + a 2 (c) ^ * n 2 , cr, = a 2 (d) ju, * /u 2l <7, * a 2 . 



Os testes t de Student e de Wilcoxon, descritos a seguir, são apropriados para esse 
tipo de situação. O teste t é aplicável quando P 1 e P 2 supostas são normais, com médias 
H e n + A, respectivamente, e com a mesma variância. O teste de Wilcoxon aplica-se 
para P 2 e P 2 quaisquer, mas suponha-se que a escala de medidas seja pelo menos 
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ordinal. A análise fica mais fácil quando a P 1 e P 2 são atribuídas distribuições de variá¬ 
veis contínuas. Discutiremos a razão desta suposição adicional. 

Outro caso de interesse é aquele em que queremos testar se as duas médias são 
iguais, mas as variâncias são diferentes. Na Figura 13.1, as duas curvas teriam disper¬ 
sões diferentes ao redor de suas médias. Então, um teste preliminar de igualdade de 
variâncias seria necessário. O teste t de Student para o caso de populações normais 
será apresentado neste capítulo. 

A hipótese (13.1) ou (13.2) nos diz que não há efeito do tratamento. A alternativa 
usual para H 0 é que o efeito do tratamento é o de aumentar as respostas. Isto é, P 2 gera 
valores maiores que P 2 , com maior freqüência. Mas pode ocorrer o contrário: diminuir 
as respostas. Por exemplo, o "tratamento" visa a diminuir o tempo para executar deter¬ 
minada tarefa. 

2. Inferências para duas médias: amostras dependentes 

Quando se comparam as médias de duas populações, pode ocorrer uma diferença 
significativa por causa de fatores externos não-controlados. Por exemplo, no caso 
do Exemplo 13.4 abaixo, poderia ocorrer que um dos grupos tivesse vendedores 
mais experientes e habilidosos do que o outro. Logo, a diferença seria devido a 
esses fatos, e não ao mérito real da técnica de vendas. Um modo de contornar esse 
problema é coletar as observações em pares, de modo que os dois elementos de cada 
par sejam homogêneos em todos os sentidos, exceto no que diz respeito ao fator que 
queremos comparar. 

Por exemplo, no caso do Exemplo 13.1 (a), para testar os dois métodos de ensino, 
poderíamos usar n pares de gêmeos, sendo que um elemento de cada par recebe aulas 
pela TV e outro ao vivo. Esse procedimento pretende controlar o maior número possí¬ 
vel de fatores externos que possam afetar o aprendizado. Se houver diferença no apren¬ 
dizado, essa dever-se-á realmente ao método. 

Esse procedimento também é usado quando observações das duas amostras são 
feitas no mesmo indivíduo, por exemplo, medindo uma característica do indivíduo 
antes e depois de ele ser submetido a um tratamento. 

O teste t de Student para observações pareadas (ou emparelhadas), supondo nor¬ 
malidade, é apropriado para essas situações. 

3. Inferências para duas variâncias: amostras independentes 

Como vimos no item 1, podemos testar se duas amostras independentes pro¬ 
vêm de duas populações com variâncias iguais, desconhecidas. Se essas variâncias 
forem diferentes, o teste tem de ser modificado. Esse teste, sob a suposição de 
normalidade das duas populações, usa uma estatística que tem uma distribuição 
especial, chamada F de Snedecor. 

Finalizando esta seção, ressaltamos que poderemos ter mais do que duas amostras, 
e técnicas semelhantes podem ser desenvolvidas. Veja o Capítulo 15. 
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13.2 Comparação das Variâncias de Duas Populações Normais 

A situação que vamos considerar nesta seção envolve a utilização da distribuição 
F, estudada na seção 7.7. A descrição a seguir é importante. 

Uma das distribuições amostrais mais usadas, e que corresponde a uma distribuição 
F, resulta do seguinte problema. Suponha que temos duas amostras independentes, de 
tamanhos n 1 e n 2 , retiradas de duas populações normais com a mesma variância o 2 . 
Indiquemos os estimadores de o 2 obtidos das amostras por S 2 e S 2 , respectivamente. 
Já vimos que 


U 

\I 


(n i - 1 )Sl 
o 2 


~ Z 2 (n 1 - D, 


(n 2 - 1)S 2 2 
o 2 


~ Z 2 (n 2 - D, 


e portanto a v.a. 

U 

P = ~ F (Oi - 1, n 2 - 1). (13.3) 

n 2 - 1 

Essa variável será usada no teste desta seção. 

Consideremos, agora, uma amostra X v ..., X n de uma população com distribuição 
A/(ju lf (jj) e uma amostra Y v ..., Y m de uma população com distribuição N(/u 2 , <j 2 ). Supo¬ 
nhamos que as duas amostras sejam independentes. 

Queremos testar 

U . —2 _ _2 _ _2 

n o ■ 0 1 -0 2 - O 

H j : o\± c\. 


Chamemos de S 2 e S 2 as variâncias amostrais respectivas. De (13.3) e sob a supo¬ 
sição de H 0 ser verdadeira, isto é a\ = <r 2 , temos que 

\N = SllSl ~ F (n - 1, m - 1). (13.4) 


Fixado a, encontramos dois números f 1 e f 2 , da Tabela VI, tais que 

PiW G RC) =P(W < ou 1/1/ > f 2 ) = a. 

Os valores f 1 e f 2 são determinados de modo que P(1/1/ < = a/2 = P(W > f 2 ). Na 

prática, consideramos o quociente (13.4) de tal sorte que S 2 /S 2 > 1. 

Colhidas as amostras d en em indivíduos, respectivamente, das duas populações, calcu¬ 
lamos os valores observados s 2 10 e s 2 20 e o valor observado de l/l/, ou seja, w 0 = s 2 10 /s 2 20 . 

Se w 0 pertencer à região crítica, rejeitamos H 0 ; caso contrário, a aceitamos. 








366 


CAPÍTULO 13 — INFERÊNCIA PARA DUAS POPULAÇÕES 


Exemplo 13.2, Queremos verificar se duas máquinas produzem peças com a mesma 
homogeneidade quanto à resistência à tensão. Para isso, sorteamos duas amostras de 
seis peças de cada máquina, e obtivemos as seguintes resistências: 


Máquina A: 

145 

127 

136 

142 

141 

137 

Máquina B: 

143 

128 

132 

138 

142 

132 


As hipóteses a serem testadas são: 


H o : = °l = ° 2 


Sob a suposição de normalidade das medidas de resistência à tensão, para as duas 
máquinas, temos que a v.a. l/l/, definida por (13.4), tem uma distribuição F(5,5). Fixan¬ 
do a = 0,10 e consultando a Tabela VI, teremos 


RC = ]0, (5,05)- 1 [U]5,05, M- 

Das amostras encontramos si = 40 e s B 2 = 37, portanto w 0 = 1,08. Como esse valor 
não pertence à região crítica, aceitamos H 0 , ou seja, as máquinas produzem com a 
mesma homogeneidade quanto à variabilidade. 

Caso tivéssemos rejeitado a hipótese de igualdade das variâncias, seria conveniente 
obter um intervalo de confiança para o quociente das duas variâncias. De (13.3) pode¬ 
mos escrever, quando a\ A o\, 


1 / 1 / = 



Ul(n - 1) 
V/[m - 1) 


~ F (n - 1, m - 1), 


e para um dado y, 0 < y< 1, podemos encontrar dois valores e f 2 , tais que 

P(f 1 <F(n-l,m-l)< f 2 ) = y. 

Dessa igualdade, segue-se que, com probabilidade y, 


f, < 


li 


0-2 


<f 2 , 


ou seja, o IC [alia];, y) será dado por 


fi 


5l 

Sl 



(13.5) 


Exemplo 13.3. Suponha que para outras seis medidas para as máquinas A e B do Exem¬ 
plo 13.2 tivéssemos Sl = 85 e S s 2 = 8. Como w 0 = 85/8 = 10,62, rejeitaríamos H 0 . Então, o 
IC dado por (13.5) ficaria, com y= 0,90, 


1 _ 8 _ 
5,05 85 


<5,05 


8_ 
85 ' 
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ou seja, 

/j2 

0,019 < < 0,475. 

V A 

Invertendo-se, obtemos, também, 

2,10 <-5 < 52,6, 

que indica a variação possível, no nível fixado, da razão entre as duas variâncias. Note que, 
sob H 0 , temos o\!a\ = 1, que não pertence a esse intervalo. 


1. Da populaçãoX ~ A/ (50,100) retirou-se uma amostra casual simples de n - 10 elementos. 
Da população Y ~ A/ (60,100) retirou-se uma amostra casual simples dem =6 indivíduos, 
independente da primeira. Obtemos as variâncias amostrais Sj e S\, respectivamente. 

(a) Encontre o valor de a, tal que P {Sl/Sl < a) - 95%. 

(b) Encontre o valor de b, tal que P(Sl/Sl > b) =95%. 

2. Por que em (13.3) as v.a. U e V são independentes? 

3. Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria 
quanto à política salarial é por meio do desvio padrão de seus salários. Afábrica A diz ser mais 
coerente na política salarial do que a fábrica B. Para verificar essa afirmação, sorteou-se uma 
amostra de 10 funcionários não especializados de A , e 15 de B, obtendo-se os desvios padrões 
S A = 1.000 reais e S B = 1.600 reais. Qual seria a sua conclusão? 

4. Deseja-se comparar a qualidade de um produto produzido por duas fábricas. Essa quali¬ 
dade será definida pela uniformidade com que o produto é produzido em cada fábrica. 
Tomaram-se duas amostras, uma de cada fábrica, medindo-se o comprimento dos produ¬ 
tos (o resumo dos resultados está no quadro abaixo). A qualidade das duas fábricas é 
a mesma? Caso a sua resposta seja negativa, dê um intervalo de confiança para 
indicar a intensidade dessa desigualdade. 


Estatísticas 

Fábrica A 

Fábrica B 

Amostra 

21 

17 

Média 

21,15 

21,12 

Variância 

0,0412 

0,1734 


13.3 Comparação de Duas Populações: Amostras 
Independentes 

Nesta seção estudaremos o caso onde temos duas amostras independentes, X v ..., 
X n e Y v ..., Y m , de duas populações P 1 e P 2 , respectivamente. 
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Estaremos interessados em comparar as médias dessas populações, verificando se 
elas podem ser consideradas iguais ou não. No caso de populações normais, teremos, 
preliminarmente, de usar o que aprendemos na seção anterior, para testar se as variâncias 
de P 2 e P 2 são iguais. 

Consideraremos duas situações: na primeira, iremos supor que as populações sejam 
normais (reveja os Problemas 32, 33 e 34 do Capítulo 10, os Problemas 31 e 32 do Capí¬ 
tulo 11 e o Problema 29 do Capítulo 12); na segunda, essa suposição não é necessária. 

13.3.1 Populações Normais 

Aqui, P 1 ~ N(n v &{) eP 2 ~ N(/u 2 , a 2 2 ). 

Queremos testar a hipótese (13.1), que aqui fica escrita na forma 

H 0 ' AC — 7*2' 

Na situação da Figura 13.2 (c), a alternativa adequada é 

H j: V-2 > H v 

mas supondo as variâncias iguais. Se estivermos apenas interessados em verificar se 
existe diferença entre as médias das duas populações, não importando a direção, então 
a alternativa adequada será 

H !: M, * Ih.' 

Para cada amostra calculamos os estimadores da média e da variância: 


X = 4 EX„ s\ = ^ ZIK, - X >'; 


Hl ■ 1 

11 / =1 


f=— Jjy., 5\ = 


2 _ 1 


m ftx '' 


m- 1 f)! 


Sob a hipótese H 0 , isto é, ju 2 = n 2 , 

E(X-Y)= 0, 


Var(X - Y) =Var(X) +Var(r) =J?± +— 2 . 


(13.6) 

(13.7) 


n m 

Como X - Y tem distribuição normal, se as variâncias fossem conhecidas, a estatística 


Z = X ~ Y — (13.8) 

V o\ln + o\lm 

teria distribuição normal padrão, sob a hipótese nula H 0 , e poderia ser usada para 
testar H 0 contra H v Contudo, nas situações de interesse prático, as variâncias não são 
conhecidas, devendo ser substituídas por estimativas convenientes. Aqui, a distribuição t 
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de Student desempenha papel importante. Notemos que, da definição da v.a. t de 
Student, t = Vn(X - /j)IS, podemos obter 


t 2 = 


X-li ) 2 
a/^Tn I 


[(n - l)S 2 /cr 2 ]/(n - 1) 


~ F(l, n - 1), 


(13.9) 


o que mostra uma relação entre as distribuições t(n - 1) e F(l, n - 1). Observe que o 
numerador de (13.9) é o quadrado de uma A/(0, 1) e, portanto, tem uma distribuição 
X 2 (l), e o denominador é o quociente de uma v.a. X 2 (n - 1) por (n - 1). 

Vamos considerar dois casos. 


(a) M esma Variância, Desconhecida 

Suponha que, ao testar a hipótese de igualdade de variâncias, esta não seja rejei¬ 
tada, isto é, a\ = o\ = o 2 , porém essa variância comum é desconhecida. Como S 2 e 
5 2 são dois estimadores não-viesados de a 2 , podemos combiná-los para obter um 
estimador comum 


S = 

“V 


(n - 1)S 2 + (m 


1)S 2 


. Eí.i (x,-x ) 2 + ir=i -Y) 


n + m - 2 


n + m 


(13.10) 


que também é um estimador não-viesado de a 2 . Mais ainda, cada parcela do numera¬ 
dor de (13.10), quando dividida por o 2 , terá distribuição qui-quadrado, com (n - 1) e 
(m - 1) graus de liberdade, respectivamente. Logo, teremos que 

( n +m - 1 2)5 ^ ~ X 2 [n + m - 2). (13.11) 

a 2 

Pelo Teorema 7.1, a estatística 

X - Y 

j_ aV l/n + l/m X - Y (13 12) 

S p lo S P V l/n + l/m 

terá uma distribuição t de Student, com (n + m - 2) graus de liberdade, sob a hipótese 
H 0 , isto é, se /Tj = n 2 . 


Tabela 13.1: Dados para duas técnicas de vendas. 


Dados 

Vendas 

Técnica A 

Técnica B 

Média 

68 

76 

Variância 

50 

75 

Vendedores 

12 

15 
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Exemplo 13.4. Duas técnicas de venda são aplicadas por dois grupos de vendedores: 
a técnica A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se que a 
técnica B produza melhores resultados. No final de um mês, obtiveram-se os resulta¬ 
dos da Tabela 13.1. 

Vamos testar, para o nível de significância de 5%, se há diferenças significativas entre 
as vendas resultantes das duas técnicas. Informações adicionais permitem supor que as 
vendas sejam normalmente distribuídas, com uma variância comum o 2 , desconhecida. 

As hipóteses a serem testadas ficam 

^ 0 ‘ ^B 

H vM A <7V 

Pelas suposições acima, podemos usar a estatística (13.12), com n = 12, m = 15 e 
S p 2 = (11S 2 + 14 S b 2 )/25. Da Tabela V obtemos RC = ]1,708, + °°[. 

Da Tabela 13.1 calculamos 

r 2 _ 11(50) + 14(75) _ RA 


0 8V 1/12 + 1/15 

Como t 0 e RC, rejeitamos H 0 , ou seja, existe evidência de que a técnica B produz 
melhores resultados do que a técnica A. 

Encontrada diferença entre os métodos, a continuação natural é construir um inter¬ 
valo de confiança para a diferença A = ju B - ju A . Do resultado (13.12) é fácil verificar que 

IC (A; y) = (x 0 - y 0 ) ± tySp V1 In + l/m. 

Para o nosso exemplo, com y= 0,95, esse intervalo reduz-se a 
IC(A; 0,95) = 8 ± (2,06)(8) V 1/12 + 1/15 
= 8 ± 6,38 = ] 1,62; 14,38[. 

(b) Variâncias Desiguais, Desconhecidas 

Quando a hipótese de igualdade de variâncias for rejeitada, devemos usar a estatística 

T = X- ^ - (13.13) 

V S i/n + S 2 i/m 

Pode-se provar que, sob a veracidade de H 0 , a v.a. T aproxima-se de uma distribui¬ 
ção t de Student, com o número de graus de liberdade dado aproximadamente por 
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[A +B) 7 

A 2 l(n - 1) + B 2 /(m - 1) 


(13.14) 


na qual 

A = s\ln, B = s 2 2 lm. 

Como esse valor é geralmente fracionário, arredonde para o inteiro mais próximo 
para obter o número de graus de liberdade. 

Exemplo 13.5. Queremos testar as resistências de dois tipos de vigas de aço, A e B. Toman¬ 
do-se n = 15 vigas do tipo A e m = 20 vigas do tipo B, obtemos os valores na Tabela 13.2. 
Usando um teste F com nível a = 10% rejeitamos a hipótese de variâncias iguais. 


Tabela 13.2: Médias e variâncias para dois tipos de vigas de aço. 


Tipo 

Média 

Variância 

A 

70,5 

81,6 

B 

84,3 

161,5 

Consideremos as hipóteses 

^ 0‘ ~ 7^b 

^ TV 



A estatística a ser usada é (13.13), com v = (182,66)/(2,11 + 3,43) = 32,9, logo 
tomamos v = 33. Com a = 0,05, obtemos da Tabela V que RA = ]-2,0345; 2,0345[. 
Com os dados da Tabela 13.2, temos t 0 = (-13,8)/3,68 = - 3,75. 

Como t 0 G RC, rejeitamos H 0 , ou seja, há evidências de que os dois tipos de vigas 
têm resistências médias diferentes. 


ijnn 


emas 


5 . Num estudo comparativo do tempo médio de adaptação, uma amostra aleatória, de 50 
homens e 50 mulheres de um grande complexo industrial, produziu os seguintes resultados: 


Estatísticas 

Homens 

Mulheres 

Médias 

3,2 anos 

3,7 anos 

Desvios padrões 

0,8 anos 

0,9 anos 


Que conclusões você poderia tirar para a população de homens e mulheres dessa indús¬ 
tria? (Indique as suposições feitas para resolver o problema.) 

6. Diversas políticas em relação às filiais de uma rede de supermercados estão associadas 
ao gasto médio dos clientes em cada compra. Deseja-se comparar esse parâmetro para 
duas novas filiais, por meio de duas amostras de 50 clientes cada. As médias obtidas 
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foram 62 e 71, respectivamente. Sabe-se que o desvio padrão, em ambos os casos, deve 
ser da ordem de 20 unidades. E possível afirmar que o gasto médio nas duas filiais seja 
o mesmo? Caso contrário, dê um intervalo de confiança para a diferença. 

7. Uma fábrica de embalagens para produtos químicos está estudando dois processos para 
combater a corrosão de suas latas especiais. Para verificar o efeito dos tratamentos, foram 
usadas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão 
eliminada). Qual seria a conclusão sobre os dois tratamentos? 


Método 

Amostra 

Média 

Desvio Padrão 

A 

15 

48 

10 

B 

12 

52 

15 


8. No Problema 4, teste a hipótese de que as médias dos comprimentos do produto produzido 
pelas duas fábricas são iguais. 

9. Para investigar a influência da opção profissional sobre o salário inicial de recém-forma¬ 
dos, investigaram-se dois grupos de profissionais: um de liberais em geral e outro de 
formados em Administração de Empresas. Com os resultados abaixo, expressos em salários 
mínimos, quais seriam suas conclusões? 


Liberais 

6,6 

10,3 

10,8 

12,9 

9,2 

12,3 

7,0 


Administradores 

8,1 

9,8 

8,7 

10,0 

10,2 

8,2 

8,7 

10,1 


13.3.2 Populações Não-Normais 

Passamos, agora, a descrever um teste que não faz suposições a respeito da 
forma das distribuições P 1 e P 2 , a não ser que as variáveis envolvidas tenham uma 
escala de medida pelo menos ordinal. Ou seja, podemos abordar o caso de variáveis 
qualitativas ordinais e variáveis quantitativas. Esse teste (chamado de Wilcoxon ou 
de M ann-Whitney) pertence a uma categoria de procedimentos chamados não- 
paramétricos ou livres de distribuição. 

Teremos para análise amostras independentes das duas populações e queremos 
testar a hipótese (13.1) contra a alternativa de que as distribuições diferem em locali¬ 
zação: estaremos interessados em saber se uma população tende a ter valores maiores 
do que a outra, ou se elas têm a mesma mediana ou média. 

O teste de Wilcoxon é baseado nos postos dos valores obtidos combinando-se as 
duas amostras. Isso é feito ordenando-se esses valores, do menor para o maior, inde¬ 
pendentemente do fato de qual população cada valor provém. A estatística do teste é 
a soma dos postos associados aos valores amostrados de uma população, P v por 
exemplo. Se essa soma for grande, isso é uma indicação de que os valores dessa 
população tendem a ser maiores do que os valores de P 2 , e, então, rejeitamos (13.1). 

No caso de termos uma v.a. qualitativa ordinal, comumente associamos números 
às diversas categorias (ou classes, ou atributos), segundo as quais a variável é classi- 




















373 


13.3 COMPARAÇÃO DE DUAS POPULAÇÕES: AMOSTRAS INDEPENDENTES 


ficada. Por exemplo, podemos ter 1 para bom, 2 para muito bom e 3 para ótimo. 
Vemos, então, que esses valores são os postos, nesse caso, e em outras situações 
é preferível trabalhar com postos do que com valores arbitrários associados à 
v.a. qualitativa. 

Quando trabalhamos com v.a. quantitativas poderemos ter valores repetidos nas 
amostras. Veremos como associar postos nesse caso. Para evitar esses empates, uma 
possibilidade é supor que a v.a. seja contínua, de modo que se X for uma tal variável, 
PiX = x 0 ) = 0. Essa suposição é eventualmente necessária para o desenvolvimento 
teórico do teste, mas na prática, quer X seja contínua ou discreta, valores repetidos 
poderão aparecer. 

(a) Observações Distintas 

Suponha que tenhamos N observações Z v Z 2 , ..., Z N . Ordenando-as da menor para 
a maior obtemos as estatísticas de ordem, Z (1) Z (2) ... «= Z (w) . Inicialmente, suponha 

que não haja observações coincidentes, de modo que os sinais de são substituídos 
por <. Então, associamos números (normalmente 1, 2, ..., N), chamados postos, que 
correspondem às posições das observações na ordenação. O posto de Z, é igual a 1 + 
(número de Z l < Z,). Assim, dadas as observações 

Zj = 0,3, Z 2 = 1,5, Z 3 = - 0,5, Z 4 = 2,0, 
os postos de Z 1( Z 2 , Z 3 e Z 4 serão, respectivamente, 

R2 =2, R 2 = 3, R 3 = 1, R 4 = 4, 
já que a ordenação resulta em 

-0,5 < 0,3 < 1,5 < 2,0, ou Z 3 <Z 1 <Z 2 <Z 4 . 

Exemplo 13.6. Num estudo sobre um novo método para ensinar Matemática ele¬ 
mentar, foram selecionadas cinco crianças. Destas, três são escolhidas ao acaso e 
ensinadas segundo o novo método, enquanto as outras duas funcionaram como con¬ 
trole e receberam instrução por um método tradicional. Após um período de cinco 
semanas é feito um teste, e as crianças são ordenadas segundo seu desempenho: a 
criança que tiver menor nota recebe posto 1, etc., até a criança que tiver maior nota 
recebe posto 5. 

O método de ensino será considerado eficaz se as três crianças que recebem o 
novo método tiverem postos altos nessa ordenação combinada das cinco crianças. 
Seja H 0 a hipótese nula que especifica que o tratamento (novo método) não tem efeito, 
isto é, a nota da criança não é afetada se ela for ou não ensinada pelo novo método. Se 
H 0 for verdadeira, o posto atribuído a cada criança é determinado somente pela sua 
inteligência, ou seja, a ordenação das crianças não depende de qual recebe tratamento 
e qual funciona como controle. A Tabela 13.3 mostra todos os casos possíveis para a 
ordenação, onde C indica controle e T, tratamento. 
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Tabela 13.3: Valores de l/l/ s para o Exemplo 13.6. 


Postos 

Ws 

1 

2 

3 

4 

5 

C 

C 

T 

T 

T 

12 

C 

T 

C 

T 

T 

11 

T 

C 

C 

T 

T 

10 

C 

T 

T 

C 

T 

10 

T 

C 

T 

C 

T 

9 

C 

T 

T 

T 

C 

9 

T 

C 

T 

T 

C 

8 

T 

T 

C 

T 

C 

7 

T 

T 

T 

C 

C 

6 

T 

T 

C 

c 

T 

8 


Vemos que as crianças e seus postos podem ser divididos em dois grupos (tratados e 
controles) de = 10 maneiras diferentes. A suposição de que as três crianças recebendo o 

tratamento são selecionadas ao acaso e de que os tratamentos são equivalentes, impli¬ 
ca que todas as dez possibilidades têm a mesma probabilidade 1/10. 

Consideremos a estatística 


W s = Sj + S 2 + S 3 , (13.15) 

onde S 1( S 2 e S 3 são os postos das crianças que receberam o tratamento na amostra combinada. 

Poderíamos considerar como regra de decisão para rejeitar H 0 a ocorrência de 
l/l/s = 12, correspondendo à ocorrência de CCTTT, clara superioridade do tratamento. 
Qual seria a probabilidade de esse evento ocorrer por mero acaso, ou seja, quando os 
dois métodos são equivalentes? Nesse caso teremos 

P (l/l/ s = 12 |Ho verdadeiro) = 0,10, 

que é a probabilidade do erro de tipo I, ou seja, o nível de significância do teste. M as, 
como vimos antes, usualmente procedemos de maneira oposta, ou seja, fixamos a e 
não a regra de decisão. 

Como vimos acima, rejeitamos H 0 para valores grandes de \N S , ou seja, l/l/ s c, 
onde c é uma constante determinada a partir do nível de significância do teste, a. 
Obtemos o teste de Wilcoxon : 

"Rejeite H 0 seW s s?c, onde c é determinada por P(W S s? c\H 0 é verdadeira ) = a". 
A distribuição nula (isto é, sob H 0 ) de l/l/ s é obtida da Tabela 13.3 e está na Tabela 13.4. 


Tabela 13.4: Distribuição de l/l/ s , observações distintas. 


w 

6 

7 

8 

9 

10 

11 

12 

P(W s = w) 

1/10 

1/10 

2/10 

2/10 

2/10 

1/10 

1/10 
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A distribuição de l/l/ s é simétrica ao redor do valor 9 que, como veremos, representa 
a média de l/l/ s , dada por n(N + l)/2, com N = n + m (Ver Figura 13.3). 


Figura 13.3: Distribuição de W s para o Exemplo 1 3.6. 










6 7 8 9 10 11 12 w 


Se, por exemplo, a = 0,05, não existe valor satisfazendo P(l/I/ S > c) = 0,05. Podemos 
encontrar c somente para valores de a iguais a 0,1; 0,2; 0,4 etc. Por exemplo, se 
a = 0,1, então 

P(W S ^ 12) =0,1 e c = 12. 

Consideremos, agora, a situação geral. Queremos testar (13.1). Temos duas amos¬ 
tras independentes, X 1( ..., X„, de P 1( e Y v ..., Y m , de P 2 . Seja N = n + m e combinamos as 
duas amostras numa só, ordenamos os N valores no menor para o maior e chamemos 
Sj < S 2 < ... < S m os postos dos Y, (tratamentos) e R 1 < R 2 < ... < R n os postos dos X, 
(controles). Estamos supondo que não haja empates. Seja 

W s = 5, +S 2 + ... +S m (13.16) 

a soma dos postos dos tratamentos. Rejeitamos H 0 seW s ^c. 

No caso bilateral, rejeite H 0 se l/l/ s < c x ou l/l/ s > c 2 , para dado a. 

Não é difícil verificar que, se a distribuição de P 2 for contínua, então 

P(Si = s 2 .. S m =s m )= * , (13.17) 

U) 

ondeSj < s 2 < ... < s m es, e {1, 2, ..., N}, N = n + m. 

Observação. Por (13.17) vemos que a distribuição dos postos e portanto de l/l/ s não depende 
de P 2 . Isso não ocorrerá se P x não for contínua. Se as distribuições P 1 eP 2 forem contínuas, 
há ausência de empates (isto é, coincidência entre valores de X e de Y). Isso significa que 
poderíamos considerar nossas medidas de X e Y de tal sorte que coincidências seriam evitadas. 
Na prática, contudo, as medidas são feitas em geral com o mesmo número de casas deci¬ 
mais, de modo que empates podem ocorrer. Essa situação é analisada abaixo. 

A distribuição sob H 0 de l/l/ s pode ser encontrada como no Exemplo 13.6. Para dado 
valor de w, verificamos quantas amostras de tamanho m, retiradas de P = {1, 2, ..., A/} 
fornecem o valor de w. Se #(w\ n, m) indicar esse número, então, por (13.17), 
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P (l/l/ s = ia/ | H 0 é verdadeira) 


#(w; n, m) 

ÃT 

m 


(13.18) 


Pode-se provar o seguinte resultado (veja, por exemplo, Lehmann, 1975): 


Teorema 13.1. Para a estatística l/l/ s temos: 

E (l/l/ s ) = m < A/ 2 +1 ) , (13.19) 

Var(W s ) = nm ^+±) . (13.20) 


Além disso, a distribuição de l/l/ s pode ser aproximada pela distribuição normal; 
quando n, m ->- 00 , a v.a. 


W S -E(W S ) 

V Var(l/ig 

tem uma distribuição aproximada A/(0, 1). 

Uma estatística equivalente a l/l/ s é 


(13.21) 


U S = W S - jm(m + 1 ), 


(13.22) 


chamada estatística de Mann-Whitney. Há duas vantagens em se usar U s : 

(a) a distribuição de U s para n = n 1 e m = m 1 é a mesma que a distribuição de (J s quando 
os tamanhos são invertidos, isto é, para n = m 1 e m = n r Isso não acontece com W s ; 

(b) 0 valor mínimo de l/l/ s é obtido quando os postos dos m tratamentos são 1, 2, ..., m e 
1 + 2 + ... + m = m[m + l)/2; logo, 0 valor mínimo de U s é zero, para quaisquer 
valores de n e m, simplificando a construção de tabelas. A Tabela VIII do Apêndice 
dá os valores de P(U S « u). 

Para essa estatística temos 0 resultado seguinte. 


Teorema 13.2. A média e variância de U 5 são dadas por 

E(U S )=— (13.23) 

e 

Var(U s )=MN_E±) , ( 13 . 24 ) 

respectivamente. Além disso, a distribuição de U s pode também ser aproximada por 
uma normal. 
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Exemplo 13.7. Suponha que m = n = 10 e queremos calcular P(l/l/ s =s 87). O valor tabelado 
é 0,0952, que é encontrado na Tabela VIII com n = m = 10, e levando-se em conta que 
U s = 87 - 10 x 11/2 = 32 e, portanto, P(U S ^ 32) = 0,0952. 

Por outro lado, usando a aproximação normal, E(l/I/ S ) = 105, Var(l/I/ S ) = 175, temos 


P(I/IA 87) =P 


W s - 105 
Vl75 


87 - 105 
VT75 


= P(Z ss -1,36) « 0,087, 


que está bem próxima do valor encontrado usando-se a tabela. 

A aproximação pode ser melhorada usando-se a correção de continuidade discu¬ 
tida na seção 7.5, pois aqui também estamos aproximando a distribuição de uma v.a. 
discreta (l/l/ s ) por uma distribuição de variável contínua (normal). Verifique que, usando 
essa correção, obtemos P (l/l/ s « 87) ~ 0,0934. 


(b) Observações Não Todas Distintas 

Consideremos, agora, a situação em que haja observações coincidentes, ou empates. 

Suponha, por exemplo, que n = 3, m = 2 e as observações são 

1,3; 1,5; 1,5; 2,1; 2,5. 

Nesse caso, usamos postos médios. Associamos o posto 1 à observação 1,3; às 
duas observações empatadas 1,5 associamos a média dos postos 2 e 3, que seriam 
atribuídas se as observações fossem distintas, ou seja, atribuímos o posto (2 + 3)/2 = 
2,5; à observação 2,1 atribuímos o posto 4 e à observação 2,5 atribuímos o posto 5. 

Embora a atribuição de postos seja diferente nesse caso, continuaremos a usar a 
mesma notação anterior para os postos das observações X f e Y.. A distribuição da 
estatística 1/1/ s não é mais dada por (13.17), pois os valores de S 1( ..., S m não são mais os 
anteriores. Retomemos o exemplo dado. Temos que a distribuição conjunta dos postos 
Sj e S 2 será: 

P (S 1 = 1, S 2 = 2,5) = 2/10, P (S 1 = 1, S 2 = 4) = 1/10, 

P (S 1 = 1, S 2 = 5) = 1/10, P (S 1 =S 2 = 2,5) = 1/10, 

P (S 1 = 2,5, S 2 = 4) = 2/10, P (S 1 = 2,5, S 2 = 5) = 2/10, 

P (S 1 = 4, S 2 = 5) = 1/10, 


pois ainda cada uma das Q j = 10 escolhas de dois dos postos médios como S 2 e S 2 são 
igualmente prováveis. Portanto a distribuição de l/l/ s = S 2 + S 2 é dada pela Tabela 13.5. 


Tabela 13.5: Distribuição de l/l/ S( observações não-distintas. 


w 

3,5 

5,0 

6,0 

6,5 

7,5 

9,0 

P ( W S = w ) 

2/10 

2/10 

1/10 

2/10 

2/10 

1/10 
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Observe que a distribuição da v.a. 1/1/ s nesse caso não é simétrica; será simétrica ao 
redor de m(N + l)/2 se n = m. 

Genericamente, o teste de Wilcoxon, no caso de observações empatadas, rejeita H 0 
usando a mesma regra de decisão que no caso de observações não empatadas, exceto que 
a distribuição de 1/1/ s vai depender de n, m e dos números de observações empatadas em 
cada valor, ao contrário da situação de não empates, para a qual a distribuição de 1/1/ s 
depende somente de n e m. 


Exemplo 13.8. Supondo n = 3, m = 2, as observações dos controles são 1,3, 1,5 e 2,1, 
e as observações dos tratamentos são 1,5 e 2,5. Então, 


S, = 2,5, 


S 2 =5, 


R 1 = 1 , 


R 2 =2,5, 


« 3=4 


M/ s =s i +S 2 =7,5. 


Pelo que vimos acima, o valor-p será 


ã=P(W s ^ 7,5) = 2/10 + 1/10 = 0,3, 

logo não rejeitaremos H 0 nos níveis usuais. 

Suponha que temos d 1 observações empatadas no menor valor, d 2 observações 
empatadas no segundo menor valor etc. até d e observações empatadas no maior 
valor, onde e é o número de valores distintos. Denominamos (e; d v ..., d e ) de confi¬ 
guração de empates, e a distribuição de 1/1/ s dependerá dessa configuração. Assim 
sendo, tabelas teriam de ser construídas para cada configuração de empates, o que 
não é prático. O que se faz é o seguinte: se o número de empates for pequeno, 
continue a usar a Tabela VIII. Caso contrário, use a aproximação normal. Nesse 
caso, a média de 1/1/ s é a mesma anterior, mas a variância é igual à anterior menos 
uma correção devida aos empates: 


Var(WO = ™< W+1 I 
12 


mn 


12N(N 


-Ildf- 

l ) i=1 


d). 


(13.25) 


A aproximação normal será adequada se m e n forem relativamente grandes, e as 
proporções d.JN não forem próximas de 1. 


Exemplo 13.9, Em aparelhos dentários são usados grampos de dois tipos: um mode¬ 
lo em T e outro circunferencial, C. O objetivo é verificar se a resistência à remoção 
de grampos em T é a mesma do modelo C. Foram usados 40 corpos de provas (dente- 
grampo), sendo 20 para o modelo Te 20 para o modelo C, com cinco leituras para 
cada corpo de prova, num total de 100 observações para cada modelo. As Figuras 
13.4 e 13.5 mostram os histogramas para os dois modelos, a resistência sendo 
medida em kg. 
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Figura 13.4: Resistência à remoção, em kg, para o 
modelo C. 






1 

0,4 0,8 1,2 1,6 2,0 2,4 2,8 


Figura 13.5: Resistência à remoção, em kg, para o 
modelo T. 



Vemos que há assimetrias nos histogramas, sugerindo que a aplicação do teste t de 
Student não é adequada nessa situação. A Tabela 13.6 mostra as médias das 5 leituras 
para cada corpo de prova, para o modelo T e para o modelo C (em ordem crescente). 

Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo 
T, e grampos do tipo C constituam o tratamento. Ordenando as médias da Tabela 13.6 
e atribuindo postos obtemos a Tabela 13.7. 


Tabela 13.6: Valores de resistência à remoção para os 
dois modelos. 


T 

C 

T 

C 

0,60 

0,52 

1,19 

1,19 

0,63 

0,77 

1,20 

1,20 

0,83 

0,79 

1,26 

1,34 

0,85 

0,79 

1,28 

1,36 

0,91 

0,81 

1,30 

1,38 

0,95 

0,81 

1,37 

1,43 

1,01 

0,89 

1,45 

1,64 

1,03 

0,98 

1,54 

1,71 

1,03 

1,01 

1,68 

2,16 

1,16 

1,18 

2,20 

2,25 
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Tabela 13.7: Postos para o Exemplo 13.9. 


Média 

0,52 

0,60 

0,63 

0,77 

0,79 

0,79 

0,81 

0,81 

0,83 

0,85 

Tipo 

C 

T 

T 

C 

C 

C 

C 

C 

T 

T 

Posto 

1 

2 

3 

4 

5,5 

5,5 

7,5 

7,5 

9 

10 

Média 

0,89 

0,91 

0,95 

0,98 

1,01 

1,01 

1,03 

1,03 

1,16 

1,18 

Tipo 

C 

T 

T 

C 

C 

T 

T 

T 

T 

C 

Posto 

11 

12 

13 

14 

15,5 

15,5 

17,5 

17,5 

19 

20 

Média 

1,19 

1,19 

1,20 

1,20 

1,26 

1,28 

1,30 

1,34 

1,36 

1,37 

Tipo 

C 

T 

T 

C 

T 

T 

T 

C 

C 

T 

Posto 

21,5 

21,5 

23,5 

23,5 

25 

26 

27 

28 

29 

30 

Média 

1,38 

1,43 

1,45 

1,54 

1,64 

1,68 

1,71 

2,16 

2,20 

2,25 

Tipo 

C 

C 

T 

T 

C 

T 

C 

C 

T 

C 

Posto 

31 

32 

33 

34 

35 

36 

37 

38 

39 

40 


Aqui n = m = 20 e queremos testar 

H 0 : a resistência à remoção é a mesma para os dois tipos de grampos; 
H l : o tipo C apresenta menor resistência à remoção do que o do tipo T. 
A soma dos postos dos tratamentos é 


I/I /5 — Si + S 2 + ... + S 2 o — 406,5. 
Usando a aproximação normal, a v.a. 

z= W s -E (I/I/ 5 ) 


(13.26) 


V Var(l/I/ S ) 

onde Var(l/1/ S ) é dada por (13.25), e terá distribuição aproximadamente A/(0, l). Consul¬ 
tando a Tabela 13.7, temos 


di - d 2 - d 3 - d 4 - 1, d 5 — 2, d 6 — 2, d 7 — ... — d 12 — 1, 
d i3 = 2, d 14 = 2, d 15 = d 16 = 1, d 17 = 2, d 18 = 2, 
dig = ■■■ = d 34 = 1. 

Aqui, temos e = 34 valores distintos e 

£ (W s ) =(20 x 41)/2 =410, 

Var(l/I/ S ) = (20 x 20 x 41)/12 - (20 x 20)/(12 x 40 x 39) [(8 - 2) x 6 ] 

= 1.366,667 - 2,857 = 1.363,810. 

O valor de (13.26) é 

Z = (406,5 - 410)/36,93 = - 0,095. 

Como rejeitaremos H 0 se l/l/ s *s c, no nível a = 0,05, devemos comparar esse valor 
com o valor -1,64 da normal padrão, portanto não rejeitamos H 0 . 

Vemos que o valor-p do teste é 
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ã = P[W s ^ 406,5) « P (Z - 0,095) = 0,46, 
que é uma indicação de que a hipótese H 0 deve ser aceita. 

Observação. Comparação entre o Teste t e o Teste de Wilcoxon. 

O teste t baseia-se na suposição de que as populações P x e P 2 sejam normais. Uma 
violação dessa suposição altera a distribuição da estatística usada no teste e muda as 
probabilidades dos erros de tipo I e II. Dizemos que um teste é robusto contra a violação 
de uma suposição se suas probabilidades de erro de tipo I e II não são afetadas de forma 
apreciável pela violação. 

Pode-se mostrar que o teste t é pouco sensível à heterogeneidade de variâncias se 
m = n, mas ele será mais afetado se as variâncias forem diferentes e m A n. 

Os testes t e de Wilcoxon são comparados através de seus poderes em termos de 
uma quantidade chamada eficiência relativa assintótica, mas não entraremos em deta¬ 
lhes aqui sobre esse assunto. Mas podemos resumir a situação da seguinte maneira: 

(a) O teste t é mais poderoso quando temos populações normais, mas a perda de eficiên¬ 
cia do teste de Wilcoxon é pequena (menos de 5%) nesse caso; 

(b) haverá pouca diferença entre os dois testes para distribuições próximas da normal; 

(c) o teste de Wilcoxon é mais eficiente para distribuições que têm caudas "mais pesa¬ 
das" do que a normal. 

Para se ter uma idéia do que significa mais pesada, observamos que as distribui¬ 
ções t e Cauchy têm distribuições com caudas mais pesadas que a normal. Se P 2 e P 2 
forem ambas uniformes, pode-se provar que os dois testes são igualmente eficientes e 
se P 1 e P 2 forem ambas exponenciais, o teste de Wilcoxon é três vezes mais eficiente. 


10. Vinte canteiros foram plantados com milho. Em dez deles um novo tipo de fertilizante foi 
aplicado, obtendo-se as produções abaixo. Há diferenças significativas entre as produ¬ 
ções? A alternativa é que o novo fertilizante tende a produzir valores maiores. Tome a = 
0,05. Calcule oT. 


Controle 

7,1 

6,0 

8,0 

7,0 

6,6 

7,4 

7,0 

7,0 

6,9 

6,8 

Tratamento 

6,9 

6,8 

7,5 

6,8 

6,9 

6,8 

6,8 

6,8 

6,7 

6,6 


11. Obtenha a distribuição nula de l/l/ s para os casos: 

(a) m-2,n-2; (b) m=2,n=4; (c)m=n= 3. 

12. Calcule as seguintes probabilidades, usando a Tabela VIII e a aproximação normal. 

(a) m -6, n =7, P (W s ^ 48) 

(b) m =8,n =10, P (l/l/s =£ 65) 

(c) m = 10, n = 10, P(l/I/ S 63) 

13. Encontre a distribuição nula de W s no caso de empates, para os casos: 

















382 


CAPÍTULO 13 — INFERÊNCIA PARA DUAS POPULAÇÕES 


(a) m = n - 3, d 1 - d 2 = 1, d 3 = 2, d 4 = d 5 = 1 

(b) m -n = 3, d 1 -d 2 -d 3 = 2 

(c) m = 2, n =3, d 1 =d 2 = 1, d 3 = 3 

14. Faça os histogramas para l/l/ s nos Problemas 11 e 13. 

15. Suponha que as observações dos tratamentos sejam 3, 3, 5 e 7, e as observações dos 
controles sejam 1, 4 e 8, e que o teste de Wilcoxon rejeite para valores grandes de l/l/ s . 
Calcule â -P (l/l/ s 5* l/l/), onde l/l/ é o valor observado de l/l/ s . 

13.4 Comparação de Duas Populações: Amostras Dependentes 

Na seção 13.1 já discutimos essa situação. Aqui, temos duas amostras X v X n e Y v Y n , 
só que agora as observações são pareadas, isto é, podemos considerar que temos na realidade 
uma amostra de pares (X 1( ..., (X n , Y n ). Se definirmos a v.a. D =X - Y, teremos a amostra 

D v D 2 , D„, resultante das diferenças entre os valores de cada par. Observe que reduzimos a 

um problema com uma única população, conforme estudado nos capítulos anteriores. 

Consideraremos dois casos: no primeiro, supomos que a população das diferenças 
é normal; no segundo, supomos que essa população é simétrica. 

13.4.1 População Normal 

Nessa situação, faremos a seguinte suposição: a v.a. D tem distribuição normal 
N(/u d , (f D ). Podemos deduzir daqui que 



(13.27) 


terá distribuição N(/u D , a 2 D ln). 
Considere 



(13.28) 


Pelo Teorema 7.1, a estatística 


j = V n(D - Ho) 


(13.29) 


S D 

terá distribuição t de Student, com (n - 1) graus de liberdade. 
Como 


/u D = E (D) = E [X - Y) =E[X) - E ÍY ) = ju 1 - ju 2 , 


qualquer afirmação sobre o ii 1 - n 2 corresponde a uma afirmação sobre /u D . 
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Exemplo 13.10. Cinco operadores de certo tipo de máquina são treinados em máqui¬ 
nas de duas marcas diferentes, A e B. Mediu-se o tempo que cada um deles gasta na 
realização de uma mesma tarefa, e os resultados estão na Tabela 13.8. 


Tabela 13.8: Tempos para realização de tarefa para cinco operadores. 


Operador 

Marca A 

Marca B 

1 

80 

75 

2 

72 

70 

3 

65 

60 

4 

78 

72 

5 

85 

78 


Com o nível de significância de 10%, poderíamos afirmar que a tarefa realizada na 
máquina A demora mais do que na máquina B? 

Estamos interessados em testar 


^ 0 ■ 

H i-V a >av 

Essas hipóteses são equivalentes a 

H 0 :m d =0 

H i: > 0 . 

Como é o mesmo operador que realiza a tarefa nas duas máquinas, estamos diante do 
caso em que se pode usar variáveis emparelhadas. Vamos admitir que, sob H 0 , a diferença 
de tempo segue uma distribuição normal A/(0, (f D ). Logo, usamos a estatística (13.29). 

Para determinar a região crítica, note que, devido à forma de H v devemos encontrar 
t c tal que P(T > t c ) = 0,10, sendo que T tem distribuição t(4). Usando a Tabela V, obtemos 

RC = ]1,54; +oo [. 

Da Tabela 13.8 obtemos os valores de D: 

di : 5, 2, 5, 6, 7 

e, portanto, 

d = 5 e s 2 D = 3,5. 

O valor observado da estatística T é t 0 = (5/l,87)(V5) = 5,98. Segue-se que 
rejeitamos H 0 , ou seja, demora-se mais para realizar a tarefa com a máquina A. 
Podemos construir um intervalo de confiança para ju D ; para y = 0,90, 

IC (ju A - ju B ; 0,90) = lC(ju D ; 0,90) = 5 ± (2,13)(1,87)/V5, 


ou seja, 


lC(ju D ; 0,90) = ]3,22; 6,78[. 
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13.4.2 População Não-Normal 

Vamos considerar, agora, um teste baseado nos postos das diferenças D.: o chamado 
teste dos postos sinalizados de Wilcoxon. Para esse teste, supomos que a escala das 
diferenças seja pelo menos intervalar e que os pares (X., Y.) constituam uma A AS. 

Isso implica, em particular, que os D j são independentes, com a mesma mediana. 
Suponha, ainda, que cada D f tenha uma distribuição simétrica. Ou seja, as médias e 
medianas coincidem. 

Exemplo 13.11. Suponha que se possa simular um modelo por meio de duas linguagens 
computacionais, que chamaremos A e B. Supostamente, o tempo usando B é menor que 
o tempo usando A. Cinco pares de alunos são selecionados para o teste, de modo que cada 
membro de um par tenha a mesma habilidade computacional nas duas linguagens do 
que o outro. U m membro de cada par é escolhido ao acaso e este vai usar a linguagem B; 
o outro usará A. O tempo de simulação (em segundos) de cada linguagem é anotado, 
obtendo-se a Tabela 13.9. 


Tabela 13.9: Tempos de simulação (em segundos) para as linguagens A e B . 


Par 

1 

2 

3 

4 

5 

tempo de B (X) 

300 

410 

420 

410 

400 

tempo de A [Y ) 

350 

390 

490 

435 

440 

D =X - Y 

-50 

20 

-70 

-25 

-40 

Posto de | D | 

4 

1 

5 

2 

3 

Posto sinalizado 

-4 

+1 

-5 

-2 

-3 


Queremos testar a hipótese de que os tempos são semelhantes contra a hipótese de 
que os tempos de B são menores. Ou, ainda, 

^ o ' ~ ~ 

H i : Aí s -^=Md< 0 ' 

Na quarta linha da Tabela 13.9 estão apresentadas as diferenças D., e os postos são 
calculados a partir das variáveis |D ( .|, ou seja, os módulos (ou valores absolutos) dos D j 
(quinta linha). A sexta linha, "posto sinalizado", é obtida atribuindo-se ao posto de |D ( | o 
sinal correspondente de D r Por exemplo, para a primeira observação, D x = 300 - 350 = - 50, 
com |DJ = 50, que tem posto 4 e, portanto, posto sinalizado -4. 

Notamos que só há um posto positivo, +1. Se indicarmos por T + a soma dos postos 
positivos, rejeitaremos H 0 se T + for "pequeno". É claro que podemos trabalhar com os 
postos negativos também, e considerar T =- (soma dos postos negativos). No exemplo, 
T+ = 1 eT- = 14. Usando T", rejeitaremos H 0 se esta for "grande". Note que T + + T- = 15, 
que é a soma de todos os postos dos |D.|, que, por sua vez, é n(n + l)/2, sendo n = 5 o 
número de pares. Em geral, devemos usar a menor soma. 

Trabalhemos com T + . Para conduzir o teste, devemos obter a distribuição dessa 
estatística, sob a hipótese nula H 0 . Para isso, note que, se H 0 for verdadeira, cada 
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posto tem a mesma probabilidade de ser associado com um sinal + ou com um sinal 
Logo, a seqüência de postos sinalizados é uma de todas as possíveis combinações 
de ±1, ±2, ±5. Há 2 5 = 32 tais combinações, todas eqüiprováveis sob H 0 , ou 

seja, com probabilidade 1/32 . 

Na Tabela 13.10 temos todas as possibilidades juntamente com o valor de T + . Na 
Tabela 13.11 temos a distribuição de T + . Note que a distribuição de T + é simétrica, com 
média e mediana iguais a 7,5. 


Tabela 13.10: Sinais possíveis para os postos, Exemplo 13.10. 


1 

2 

3 

4 

5 

T + 

1 

2 

3 

4 

5 

T + 

+ 

+ 

+ 

+ 

+ 

15 

+ 

+ 

- 

+ 

- 

7 

- 

+ 

+ 

+ 

+ 

14 

- 

+ 

- 

- 

+ 

7 

+ 

- 

+ 

+ 

+ 

13 

- 

- 

+ 

+ 

- 

7 

+ 

+ 

- 

+ 

+ 

12 

+ 

- 

- 

- 

+ 

6 

- 

- 

+ 

+ 

+ 

12 

+ 

+ 

+ 

- 

- 

6 

+ 

+ 

+ 

- 

+ 

11 

- 

+ 

- 

+ 

- 

6 

- 

+ 

- 

+ 

+ 

11 

+ 

- 

- 

+ 

- 

5 

+ 

+ 

+ 

+ 

- 

10 

- 

+ 

+ 

- 

- 

5 

- 

+ 

+ 

- 

+ 

10 

- 

- 

- 

- 

+ 

5 

+ 

- 

- 

+ 

+ 

10 

+ 

- 

+ 

- 

- 

4 

- 

+ 

+ 

+ 

- 

9 

- 

- 

- 

+ 

- 

4 

- 

- 

- 

+ 

+ 

9 

+ 

+ 

- 

- 

- 

3 

+ 

- 

+ 

- 

+ 

9 

- 

- 

+ 

- 

- 

3 

+ 

+ 

- 

- 

+ 

8 

- 

+ 

- 

- 

- 

2 

+ 

- 

+ 

+ 

- 

8 

+ 

- 

- 

- 

- 

1 

- 

- 

+ 

- 

+ 

8 

- 

- 

- 

- 

- 

0 


Tabela 13.11: Distribuição deT + sobH 0 . 


T + 

0 1 

2 3 

4 

5 

ó 

7 

8 

9 

10 

11 

12 13 14 15 

Freqüência 

1 1 

1 2 

2 

3 

3 

3 

3 

3 

3 

2 

2 111 


O valor-p do teste é P(T + 1|H 0 ) = 2/32 = 0,06, usando a Tabela 13.11. Ou seja, 
há indicação de que o tempo de simulação usando a linguagem B é menor do que o 
tempo de A. Observe que temos poucos pares, e o valor à = 0,06 não é tão pequeno 
(reveja a Tabela 12.2). Mas como temos somente um posto positivo dentre cinco, 
somos levados a duvidar da validade de H 0 . 

Vejamos, agora, o caso geral. Tomemos os valores absolutos das diferenças, ou seja, 

ID,| = |X. - y.|, / = 1, ... m. 

Quando X f = Y. omitir a diferença correspondente e seja n o número de diferenças 
estritamente diferentes de zero. Associemos a cada par (X., Y.) o posto do módulo de D j 
correspondente. Use postos médios, se houver D. coincidentes. 
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A hipótese a ser testada é que a média (ou a mediana) das diferenças seja igual a 
zero contra a alternativa que não seja. Testes unilaterais podem, também, ser conside¬ 
rados. Ou seja, dada a simetria da distribuição dos D., iremos testar 

H 0 \^i d =0, 

H i: Md * 0, 

onde n D representa, como antes, a média das diferenças. 

Considere 


R _ í R(X„ U seD, > 0, 

' j-R(X,, Yj), se D, < 0, 

(13.30) 

onde R(X ( , Y.) é o posto associado a (X., Y). 

Temos dois casos a tratar: 


(A) Se não houver empates, use a estatística 


T + = E(R, com D j > 0), 

(13.31) 

ou seja, a soma dos postos positivos. Use a Tabela IX, pág. 506, para obter os quantis 
w p da estatística, ou seja, o valor, tal que P(T + <w p ) ^ p eP (T + > i/i/ p ) «= 1 - p, se H 0 for 
verdadeira. Para n > 50 use a aproximação normal, com média e variância dados no 
teorema abaixo. Para p > 0,5 o quantil é dado por 

»,= " ( " 2 +1) -«w 


(B) Se houver empates, use a estatística 

V.S**. 

Jll. i«T 

que tem uma distribuição aproximadamente A/(0,1), sob a hipótese nula. 

Teorema 13.3. A média e variância de T + são dadas por 

(13.32) 

E(T*) = " ( " 4 +1) 

(13.33) 

e 

Vari n = "f" + 11(2" + H , 

(13.34) 


respectivamente. 


Exemplo 13.11. (continuação) Obtivemos aqui T + = 1. A região crítica é unilateral à 
esquerda, logo rejeitamos H 0 se T + < ia onde é o quantil dado pela Tabela IX. Se 
fixarmos a = 0,025 ou a = 0,01, obteremos w a = 0, com n = 5, e, portanto, aceitaremos 
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H 0 . Se a = 0,05, então w a = 1, e o valor observado estará na fronteira da região crítica 
e teremos dúvidas em aceitar ou rejeitar H 0 . Como salientamos antes, a decisão, 
nesse caso, dependerá de uma análise cuidadosa dos resultados, dado o pequeno 
valor de n. 


13.5 Comparação de Proporções em Duas Populações 

Nosso objetivo agora é a comparação das proporções de duas populações P 1 e P 2 . 
Sendo mais explícitos, queremos comparar as proporções populacionais p 2 e p 2 , por meio 

dos estimadores p e p, obtidos de amostras independentes de tamanhos n 1 e n 2 respectiva¬ 
mente. Das seções 10.9 e 12.6 temos 


Pi~N 


L Pid-Pi)l 

/ 

Pi. 

,Pi~N 

1 n i ) 

V 


Pi 


Pi(l-P 2 ) 


Comparando com o resultado da seção 13.3.1, e também do Problema 10.32, obtemos 


P, - P 2 ~ N 


P1-P2. 


Pi(l-Pi) , P 2 (l-P 


+ - 


e portanto, a estatística de decisão, tanto para a construção de intervalos de confiança 
como para testes de hipóteses, será 

z= - W) Q.l), 

Pid-Pil , P;(l-P;> 

y n 1 n 2 


Mas como os valores dos parâmetros são desconhecidos, substituem-se as variâncias 
pelas seus estimadores, obtendo-se, como visto em 13.3.1(b), uma distribuição aproxima¬ 
damente t de Student. Entretanto, estudos envolvendo proporções utilizam amostras gran¬ 
des e os valores da distribuição t aproximam-se de valores da normal padronizada. Desse 
modo, para comparação de duas proporções recomenda-se sempre 0 uso da estatística: 


z = 


(p,-p,)-(p.-p,i 

Pid-p,) i p,d-p,) 

rp n 2 


(13.35) 


Exemplo 13.12: Para lançamento da nova embalagem do sabonete SEBO a divisão de 
criação estuda duas propostas: 

A: amarela com letras vermelhas, ou 
B: preta com letras douradas. 
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Eles acreditam que a proposta A chama a atenção em pelo menos 5% a mais do 
que a proposta B. Para verificar a validade de tal informação conduziu-se o seguinte 
experimento: em cada um de dois supermercados "semelhantes" foram colocados sa¬ 
bonetes com cada tipo de embalagem, e a clientes selecionados aleatoriamente foi 
perguntado se tinham notado o sabonete e que descrevessem qual a embalagem. Abai¬ 
xo estão os resultados. 



Notaram? 


Proposta 

Sim 

Não 

lotai 

A 

168 

232 

400 

B 

180 

420 

600 

Totai 

348 

652 

lOOO 


Os resultados da pesquisa justificam ou não as suposições da divisão de criação? 
Aqui, consideramos 

H 0 : p A - p B =0,05, H 2 : p A - p B > 0,05. 


Da tabela obtemos: p 2 = 0,42 e p 2 = 0,30, e aplicando a fórmula (13.35) obtemos: 

7 _ (0,42 — 0,30) — 0,05 

/ (0,42)(0,58) (0,30)(0,70) ' 

V 400 600 


Consultando a Tabela III, encontramos o valor-p â =1,19%, o que leva a rejeição 
de H 0 . O passo seguinte seria a construção de um Intervalo de Confiança, e novamente 
aplicado a expressão (13.35), obtém-se: 


IC (p A - Pe: 95%) = (0,42 - 0,30) ± 1,96 


(0,42)(0,58) (0,30)(0,70) 


400 


600 


IC(p - p : 95%)= 0,12±0,036 = [0,084;0,156]. 

A B 

Para testar a hipótese de igualdade de proporções, p x = p 2 , e usando as mesmas 
argumentações apresentadas na seção 13.3.l(a), deve-se usar uma estimativa comum 
das variâncias dada porp c (l-p c ),onde p c =(n l p 1 + n 2 p 2 )I(n 1 + n 2 ), resultando no teste: 


Z = ■ 


(Pi-P 2 ) 


< 

1 

< 

1—1 

I—1 

Pc(l-Pc) 

— + — 

{'h n l) 


A/(0,1) 


(13.36) 


Exemplo 13.12 (continuação) Voltando ao problema do sabonete SEBO, suponha 
que eles não sabem se uma embalagem é ou não mais atraente do que outra, e a 
pesquisa foi feita para responder a essa questão. Portanto 0 teste agora será: 

H o 1 Pa — Pb' ^ r Pa ^ Pb 1 






















389 


13.5 COMPARAÇÃO DE PROPORÇÕES EM DUAS POPULAÇÕES 


Da tabela obtemos p c = (348/1000) = 0,348, substituindo em (13.36), obtemos: 


Z = 


0,42-0,30 


0,348(0,652) 


400 + 600 


3,90. 


Consultando a Tabela III, encontramos valor-p próximo de zero, o que leva a rejei¬ 
ção de H 0 . Como esse resultado mostra que as variâncias também são diferentes, a 
construção do Intervalo de Confiança é obtida do mesmo modo acima. 




16. Para investigara lealdade de consumidores a um determinado produto, sorteou-se uma amostra 
de 200 homens e 200 mulheres. Foram classificados como tendo alto grau de fidelidade 100 
homens e 120 mulheres. Os dados trazem evidências de diferença de grau de fidelidade entre 
os sexos? Em caso afirmativo construa um intervalo de confiança para a diferença. 

17. Em uma amostra de 500 famílias da cidade A, constatou-se que 298 haviam comprado, 
durante os últimos 30 dias, o refrigerante Meca-Mela em sua nova versão incolor. Na 
cidade B esse número foi de 147 em 300 famílias entrevistadas. Na cidade A foi feita uma 
campanha publicitária através da rádio local, e não na cidade B. Os resultados trazem 
evidências de que as campanhas locais aumentam as vendas? 

18. Um partido afirma que a porcentagem de votos masculinos a seu favor será 10% a mais que 
a de votos femininos. Em uma pesquisa feita entre 400 homens, 170 votariam no partido, 
enquanto que entre 625 mulheres, 194 lhe seriam favoráveis. A afirmação do partido é 
verdadeira ou não? Caso rejeite a igualdade, dê um IC para a diferença. 

19. Para investigar os resultados do segundo turno de uma eleição estadual tomaram-se duas 
amostras de 600 eleitores cada: uma da capital e outra do interior. Da primeira, 276 disse¬ 
ram que votariam no candidato A, enquanto que 312 eleitores do interior também o fariam. 

(a) Estime a proporção de eleitores da capital que votariam em A. Dê um IC. 

(b) Existe diferença nas proporções entre capital e interior? 

(c) Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as 
proporções fosse estimada com erro inferior a 2%? 

(d) Qual a proporção esperada de votos que irá receber o candidato A no estado? 

(e) De uma amostra de 120 indivíduos da classe A e B, 69 são favoráveis a eleição em 
dois turnos, enquanto que em uma amostra de 100 indíviduos da classe C, 48 é que 
são favoráveis. Existe evidência e diferenças de opiniões em relação à classe social? 

20. Para verificar a importância de um cartaz nas compras de certo produto, procedeu-se do 
seguinte modo: 

(a) formaram-se sete pares de lojas; 

(b) os pares foram formados de modo que tivessem as mesmas características quanto à 
localização, ao tamanho e ao volume de vendas; 

(c) num dos elementos do par, colocou-se o cartaz; no outro, não; 

(d) as vendas semanais foram registradas, e os resultados estão a seguir. 

Qual seria a sua conclusão sobre a eficiência do cartaz? Use o teste t, fazendo as supo¬ 
sições necessárias. 
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Pares 

Vendas 

Sem cartaz 

Com cartaz 

1 

13 

16 

2 

18 

24 

3 

14 

18 

4 

16 

14 

5 

19 

26 

6 

12 

17 

7 

22 

29 


21. Resolva o problema anterior, usando o teste dos postos sinalizados de Wilcoxon. 

22. Aplique o teste de Wilcoxon para os dados do Exemplo 13.10. 

23. Os dados abaixo referem-se a medidas de determinada variável em 19 pessoas antes e 
depois de uma cirurgia. Verifique se as medidas pré e pós-operatórias apresentam a 
mesma média. Que suposições você faria para resolver o problema? Faça gráficos apro¬ 
priados para verificar suas suposições. 


Pessoas 

Pré 

Pós 

Pessoas 

Pré 

Pós 

1 

50,0 

42,0 

10 

40,0 

50,0 

2 

50,0 

42,0 

11 

50,0 

48,0 

3 

50,0 

78,0 

12 

75,0 

52,0 

4 

87,5 

33,0 

13 

92,5 

74,0 

5 

32,5 

96,0 

14 

38,0 

47,5 

6 

35,0 

82,0 

15 

46,5 

49,0 

7 

40,0 

44,0 

16 

50,0 

58,0 

8 

45,0 

31,0 

17 

30,0 

42,0 

9 

62,5 

87,0 

18 

35,0 

60,0 




19 

39,4 

28,0 


13.6 Exemplo Computacional 

Consideremos as medidas de um índice de placa bacteriana obtidas de 26 crianças 
em idade pré-escolar, antes e depois do uso de uma escova experimental (Hugger). 
Veja o CD-Placa, no final do livro. 

Como temos medidas feitas num mesmo indivíduo, as duas amostras são depen¬ 
dentes. Se quisermos testar se os índices médios de placa bacteriana antes e depois da 
escovação são iguais, teremos de usar a metodologia da seção anterior. Usando a 
notação dessa seção, teremos que testar 

M 0 1 ^1 — ^2 

ou, o que é equivalente, 

H 0 :/t d =0 

H i'-V d > 0 . 
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Na Tabela 13.12 temos os dados e as diferenças cf, = x, - y,, / = 1, 2, 26. Na 

Figura 13.6 temos os box plots dos dois conjuntos de dados, que sugerem distribui¬ 
ções bem diferentes. 


Tabela 13.12: índices de placa bacteriana. 


Sujeito 

Antes (x,) 

Depois (yd 

c(,=x,-y, 

Postos de | d | 

1 

2,18 

0,43 

1,75 

18 

2 

2,05 

0,08 

1,97 

20 

3 

1,05 

0,18 

0,87 

7 

4 

1,95 

0,78 

1,17 

13 

5 

0,28 

0,03 

0,25 

2 

6 

2,63 

0,23 

2,40 

23,5 

7 

1,50 

0,20 

1,30 

16 

8 

0,45 

0,00 

0,45 

3 

9 

0,70 

0,05 

0,65 

5 

10 

1,30 

0,30 

1,00 

10 

11 

1,25 

0,33 

0,92 

8 

12 

0,18 

0,00 

0,18 

1 

13 

3,30 

0,90 

2,40 

23,5 

14 

1,40 

0,24 

1,16 

12 

15 

0,90 

0,15 

0,75 

6 

16 

0,58 

0,10 

0,48 

4 

17 

2,50 

0,33 

2,17 

21 

18 

2,25 

0,33 

1,92 

19 

19 

1,53 

0,53 

1,00 

10 

20 

1,43 

0,43 

1,00 

10 

21 

3,48 

0,65 

2,83 

26 

22 

1,80 

0,20 

1,60 

17 

23 

1,50 

0,25 

1,25 

14,5 

24 

2,55 

0,15 

2,40 

23,5 

25 

1,30 

0,05 

1,25 

14,5 

26 

2,65 

0,25 

2,40 

23,5 

Total 

35,52 

351,0 


Figura 13.6; Boxplot parax, (antes) ey, (depois). SPlus. 
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Temos que d = 1,366 e Sp = 0,5631, donde o desvio padrão S D = 0,75. 
A estatística do teste é 


, _ Vn(d - 0) _ V26( 1,366) 
S D 0,75 


= 9,2864. 


Fixando-se a = 0,01, o valor crítico da estatística t com 25 graus de liberdade é 
2,485, que deve ser comparado com o valor obtido acima. Logo, rejeitamos H g , de 
modo que a nova escova é eficaz em remover a placa bacteriana. 

O valor-p do teste é 


ã = P(t( 25) > 9,2864) « 0, 

o que confirma que a hipótese nula deve ser rejeitada. Um intervalo de confiança para 
H D é dado por [1,063; 1,669], A saída do programa M initab para efetuar esse teste está 
no Quadro 13.1. Uma breve explicação dos comandos segue abaixo: 

(a) O comando "Paired Cl, C2" significa que estamos solicitando que seja feito um 
teste com observações pareadas, que estão nas colunas Cl e C2; 

(b) o comando "Test 0.0” significa que queremos um teste para igualdade de médias; 

(c) o comando "A Iternative 1" significa que a hipótese alternativa é aquela estabelecida 
acima, isto é, > pí 2 ; 

(d) o comando "Confidence 95.0" estabelece que o intervalo de confiança a ser 
construído tem coeficiente de confiança y= 0,95; 

(e) finalmente, os comandos "GDotplot;" e "GBoxplot." pedem para fazer um gráfico 
de dispersão unidimensional e um box plot, respectivamente. 

A saída do programa mostra: 

(a) as médias das duas amostras e a diferença das médias ("Mean"); 

(b) os desvios padrões das duas amostras e das diferenças ("StDev"); por exemplo, 
S D = 0,75, como encontramos acima. 

(c) os erros padrões estimados dos estimadores ("SE Mean"); por exemplo, o erro 
padrão estimado de X - Y é S D /4n = 0,147; esse valor é usado para construir o 
intervalo de confiança para ^ - ji v 

(d) o intervalo de confiança com c.c. = 0,95 para n x - n v dado por [1,063; 1,669]; 

(e) o valor observado da estatística t ("T-value"), no caso t = 9,29, e o valor-p 
("P-value"), que é zero nesse caso. 

Além dessa saída, podemos pedir gráficos ilustrativos. Por exemplo, o dotplot com 
o intervalo de confiança da Figura 13.7. Neste, vemos destacado o valor estipulado 
por H 0 , que, no exemplo, é zero, e não pertence ao intervalo. Na Figura 13.8 temos o 
box plot das diferenças, com o mesmo intervalo de confiança e H 0 . 
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Quadro 13.1: Test t pareado. Minitab. 

MTB > Paired cl c2; 

SUBC> Confidence 95.0; 

SUBO Test 0.0; 

SUBC> Alternative 1; 

SUBC> GDotplot; 

SUBC> GBoxplot. 

Paired T-Test and Confidence Interval 

Paired T for Cl - C2 



N 

Mean 

StDev 

SE Mean 

Cl 

26 

1.642 

0.883 

0.173 

C2 

26 

0.276 

0.232 

0.046 

Difference 

26 

1.366 

0.750 

0.147 


95% Cl for mean difference: (1.063,1.669) 

T-Test of mean difference = 0 (vs not = 0): T-Value = 9.29 P-Value = 0.000 


Figura 13.7 Dotplot das diferenças d,, com o inLervalo de confiança para n D ; também mostrados 
H 0 : /u D = 0 e d = 1,366. 



Differences 
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Figura 1 3.8: Boxplot para as diferenças d„ com o intervajo de confiança 
para p D ; também mostrados H g : p D = 0 e d = 1,366. 



13.7 Problemas e Complementos 

24. Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho 
sobre a produtividade de seus trabalhadores. Para isso, sorteou seis operários, e contou o 
número de peças produzidas durante uma semana sem intervalo e uma semana com inter¬ 
valo. Os resultados sugerem se há ou não melhora na produtividade? Caso haja melhora, 
qual deve ser o acréscimo médio de produção para todos os trabalhadores da fábrica? 


Operário 

1 

2 

3 

4 

5 

6 

Sem Intervalo 

23 

35 

29 

33 

43 

32 

Com Intervalo 

28 

38 

29 

37 

42 

30 


25. Numa indústria deseja-se testar se a produtividade média dos operários do período diurno 
é igual à produtividade média dos operários do período noturno. Para isso, colheram-se 
duas amostras, uma de cada período, observando-se a produção de cada operário. Os 
resultados obtidos foram os seguintes: 



n 

I*, 


Diurno 

15 

180 

2.660 

Noturno 

15 

150 

2.980 


De acordo com esses resultados, quais seriam suas conclusões? 

26. Num levantamento feito com os operários da indústria mecânica, chegou-se aos se¬ 
guintes números: salário médio = 3,64 salários mínimos e desvio padrão =0,85 salário 
mínimo. Suspeita-se que os salários da subclasse formada pelos torneiros mecânicos 
são diferentes dos salários do conjunto todo, tanto na média como na variância. Que 
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conclusões você obteria se uma amostra de 25 torneiros apresentasse salário médio 
igual a 4,22 salários mínimos e desvio padrão igual a 1,25 salário mínimo? 

27. Os dados abaixo representam a porcentagem do orçamento gasto com pessoal para 50 
pequenos municípios de uma certa região. 


69,5 

71,6 

73,0 

68,9 

68,9 

70,0 

72,6 

66,2 

68,1 

72,4 

67,6 

73,2 

67,6 

69,7 

71,0 

69,4 

71,5 

73,8 

69,6 

69,6 

68,2 

69,9 

71,4 

70,7 

69,7 

71,0 

66,0 

70,3 

71,7 

69,2 

69,8 

68,4 

69,5 

68,2 

72,1 

70,8 

72,2 

69,2 

71,7 

65,6 

69,6 

70,1 

69,9 

70,5 

68,0 

70,2 

69,0 

66,3 

69,4 

67,1 






(a) Analise estatisticamente os dados. 

(b) Com base na sua análise, e sabendo que na região considerada existem, ao todo, 
200 municípios, em quantos deles você acha que o gasto com pessoal é maior que 
70% do orçamento? 

(c) Em outra região, sabe-se que o gasto médio com pessoal éde65%, e o desvio padrão é 
de 20%. Qual das duas regiões é mais homogênea em relação a essa variável? Porquê? 

28. Uma amostra de 100 trabalhadores de uma fábrica grande demora, em média, 
12 minutos para completar uma tarefa, com um desvio padrão de dois minutos. Uma 
amostra de 50 trabalhadores de uma outra fábrica demora, em média, 11 minutos para 
completar a mesma tarefa, com desvio padrão igual a três minutos. 

(a) Construa um IC de 95% para a diferença entre as duas médias populacionais. 

(b) Deixe bem claro quais as suposições feitas para a solução apresentada. 

29. Deseja-se testar se dois tipos de ensino profissional são igualmente eficazes. Para isso, 
sortearam-se duas amostras de operários; a cada uma, deu-se um dos tipos de treina¬ 
mento e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo de conclu¬ 
são você poderia tirar, baseando-se nos resultados abaixo? 


Amostra 

N s de elementos 

Média 

Desvio padrão 

Tipo 1 

12 

75 

5 

Tipo II 

10 

74 

10 


30. Numa discussão sobre reajuste salarial, entre empresários e o sindicato dos empregados, 
chegou-se a um impasse. Os empresários dizem que o salário médio da categoria é 7,6 
salários mínimos (SM ), e os empregados dizem que é 6,5 SM . Para eliminar dúvidas, 
cada um dos grupos resolveu colher uma amostra independente. Os empresários, com 
uma amostra de 90 operários, observaram um salário médio de 7,0 SM , com um desvio 
padrão igual a 2,9 SM . Já a amostra do sindicato, com 60 operários, apresentou média 
igual a 7,10 SM e desvio padrão de 2,4 SM . 

(a) As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos? 

(b) De posse dos dois resultados, qual é o seu parecer? 
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31. ATorrefaçõo Guarany está querendo comprar uma nova ensacadora de café. Após con¬ 
sultar o mercado, ficou indecisa entre comprar a de marca A ou a de marca B . Quanto 
ao custo, facilidade de pagamento, tamanho etc. elas são equivalentes. O fator que decidirá 
a compra será a precisão em encher os pacotes (medido pela variância). Deseja-se, na 
realidade, testar hipótese al = a], através da estatística F =SllSj. Podem-se construir 
regiões críticas bilaterais, unilaterais à direita ou à esquerda, dependendo do objetivo. 
Indique qual seria a região crítica mais favorável às seguintes pessoas: (Justifique.) 

(a) proprietário da torrefação; 

(b) fabricante de A; e 

(c) fabricante de B. 

32. Um médico deseja saber se uma certa droga reduz a pressão arterial média. Para isso, 
mediu a pressão arterial em cinco voluntários, antes e depois da ingestão da droga, 
obtendo os dados do quadro abaixo. Você acha que existe evidência estatística de que 
a droga realmente reduz a pressão arterial média? Que suposições você fez para resol¬ 
ver o problema? 


Voluntário 

A 

B 

C 

D 

E 

Antes 

68 

80 

90 

72 

80 

Depois 

60 

71 

88 

74 

76 


33. Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média 
de 1.190 horas, com desvio padrão de 90 horas. Uma amostra de 75 lâmpadas produzidas 
pela fábrica B indica uma vida média de 1.230 horas, com desvio padrão de 120 horas. 
Admitindo que as variâncias populacionais sejam diferentes, você acha que existe diferença 
entre as vidas médias populacionais das lâmpadas produzidas pelas fábricas A e B ? 

34. Queremos comparar dois métodos de ensino A e B. Dispomos de 40 crianças. Podemos 
proceder de duas maneiras: 

(i) Sorteamos 20 crianças para compor uma classe, e as restantes formam outra classe. 
Aplicamos um método a cada classe e, depois, fazemos uma avaliação para todas as 
crianças a respeito do assunto ensinado. 

(ii) Aplicamos inicialmente um teste de inteligência às 40 crianças. Numeramos as crian¬ 
ças de 1 a 40, segundo o resultado do teste. Consideramos os 20 pares (1, 2), (3, 4), 
..., (39, 40), e de cada par sorteamos uma criança para cada classe. 

Obtemos, assim, duas classes de 20 crianças, homogêneas quanto à inteligência. Apli¬ 
camos um método a cada classe e depois avaliamos todas as crianças. 

(a) Qual a variável de observação em cada procedimento? 

(b) Quais as hipóteses estatísticas adequadas? 

(c) Qual o teste estatístico de decisão em cada caso? 

(d) Qual dos dois procedimentos você preferiria? Porquê? 

35. De 400 moradores sorteados de uma grande cidade industrial, 300 são favoráveis a um 
projeto governamental, e de uma amostra de 160 moradores de uma cidade cuja princi¬ 
pal atividade é o turismo, 120 são contra. 

(a) Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante? 
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(b) Qual seria um IC de 90% para a proporção de favoráveis ao projeto nas duas cidades? 

(Suponha que o número de pessoas nas duas cidades seja aproximadamente igual.) 

36. Para verificar o grau de adesão de uma nova cola para vidros, preparam-se dois tipos de 
montagem: cruzado (A), onde a cola é posta em forma de X, e quadrado (B), onde a 
cola é posta apenas nas quatro bordas. Os resultados da resistência para duas amostras 
de 10 cada estão abaixo. Que tipo de conclusão poderia ser tirada? 


Método A 

16 

14 

19 

18 

19 

20 

15 

18 

17 

18 

Método B 

13 

19 

14 

17 

21 

24 

10 

14 

13 

15 


37. Em um estudo para comparar os efeitos de duas dietas, A e B, sobre o crescimento, 
6 ratos foram submetidos à dieta A, e 9 ratos à dieta B. Após 5 semanas, os ganhos em 
peso foram: 


A 

15 

18 

12 

11 

14 

15 




B 

11 

11 

12 

16 

12 

13 

8 

10 

13 


(a) Admitindo que temos duas amostras independentes de populações normais, teste a 
hipótese de que não há diferença entre as duas dietas, contra a alternativa que a 
dieta A é mais eficaz, usando o teste t de Student, no nível de a = 0,01. Calcule â. 

(b) Efetue o teste usando a estatística de Wilcoxon, com a = 0,01. Calcule â. 

38. As amostras (Xj.X 10 ) e (Y^,..., Y ig ) de duas populações normais com médias ^ e /J. 2 e 

mesma variância a 2 forneceram as estatísticas: 

X=80,S^ = 16; Y = 83, S] = 18. 

Teste, com o nível a = 0,05, a hipótese H 0 : = n 2 contra a alternativa H x 

39. Em um estudo sobre um novo método para ensinar Matemática a alunos do primeiro 
grau, dez crianças foram selecionadas ao acaso de um grupo de 20 e ensinadas pelo 
novo método, enquanto as outras dez serviram como controle e ensinadas pelo método 
tradicional. Após dez semanas o desempenho dos alunos em um teste foi avaliado e 
obtiveram-se as seguintes notas: 


Novo método 

8,5 

7,5 

9,0 

9,5 

10,0 

7,0 

6,5 

8,0 

8,5 

7,0 

Controle 

7,5 

10,0 

6,5 

5,0 

8,0 

7,5 

4,5 

9,5 

6,5 

7,5 


Teste, com nível a = 0,05, a hipótese de que o novo método é mais eficaz, utilizando o 
teste teo teste Wilcoxon. Obtenha âem cada caso. 


40. Seja W R = R X +... +R„ a soma dos postos dos controles. Qual o valor de W R +1/1/ s ? 

41. Se n = 4 e m = 6, prove que P(l/I/ S 3» 35) =P(I/I/ S =£ 31), usando o fato que l/l/ s é simétrica em 
torno de m(N +1)/2. 

42. Se n =4 e m =6, prove que P(l/I/ S 35) = P(l/l/„ =£ 20). 

43. Para o CD-Placa, teste se a escova convencional é eficaz para removera placa bacteriana. 
Calcule o valor-p do teste. 
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44. Para o CD-Temperaturas, teste se a temperatura média de Cananéia é igual à temperatura 
média de Ubatuba (suponha que as observações para cada cidade sejam independentes, 
embora saibamos que elas não são, pois temos dados de séries temporais). 

45. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a 
um determinado projeto, obteve-se: 


Cidade 

A 

B 

N s de entrevistados 

400 

600 

N e de favoráveis 

180 

350 


Construa um IC para a diferença de proporções de opiniões nas duas cidades. 

46. Duas máquinas A e B, são usadas para empacotar pó de café. A experiência passada 
garante que o desvio padrão para ambas é de 10 g. Porém, suspeita-se que elas têm 
médias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da 
máquina A e outra com 16 pacotes da máquina B. As médias foram, respectivamente, 
X A = 502,74 g e X B - 496,60 g. Com esses números, e com o nível de 5%, qual seria a 
conclusão do teste H 0 : fi A =/u B ? 

47. Na região sul da cidade, 60 entre 400 pessoas preferem a bebida Meca-Mela entre as 
demais similares. Na região norte, a proporção é de 40 entre 225 entrevistados. Baseado 
no resultado dessa amostra, você diria que a proporção de todos os moradores nas duas 
regiões é a mesma? Use a = 0,05. 

48. Uma pesquisa mercadológica sobre fidedignidade a um produto doi realizada em dois 
anos consecutivos, com duas amostras independentes de 400 donas de casa em cada 
uma delas. A preferência pela marca em questão foi de 33% e 29%, respectivamente. Os 
resultados trazem alguma evidência de mudança de preferência? 








Capítulo 1 4 


Análise de Aderência 
e Associação 

r 


14.1 Introdução 


No Capítulo 4 estudamos como analisar descritivamente dois conjuntos de dados 
provenientes de duas variáveis aleatórias, resumidas na forma de tabelas de dupla entra¬ 
da. Essas variáveis podem ser qualitativas ou quantitativas, e a idéia era que podíamos 
classificar os elementos da amostra de cada variável em categorias, ou classes ou ainda 
atributos. Na Tabela 4.11 temos a situação geral, em que duas v.a. qualitativas X e Y 
foram classificadas em r categorias para X e s categorias para Y. Usaremos a notação 
dada naquele capítulo (ver seção 4.4). Lá, estávamos interessados em analisar a possível 
associação entre X e Y, e, para isso, propusemos o uso da estatística qui-quadrado de 
Pearson, dada por (4.4), e que repetimos aqui: 


X 2 =í í >"« - "* |2 


/ =1 j =1 


(14.1) 


onde n*ij denota o valor esperado sob a hipótese de que as duas v.a. não são associadas. 
Naquele capítulo apenas notamos que essa estatística deveria ser "pequena", se a hipótese H 0 
de não-associação fosse verdadeira, e "grande", caso contrário. Lá também estudamos como 
medir, por meio do coeficiente de correlação, a associação entre duas variáveis quantitativas. 
Neste capítulo vamos precisar esses conceitos. Além do teste mencionado no Capítulo 4, 
iremos estudar outros testes que utilizam muito a estatística (14.1), bem como outras distri¬ 
buições já estudadas. Faremos, agora, uma breve resenha sobre esses testes. 


1. Testes de Aderência 

Temos uma população P e queremos verificar se ela segue uma distribuição 
especificada P 0 , isto é, queremos testar a hipótese H 0 : P =P 0 . No Capítulo 12 vimos também 
como testar essa hipótese, empregando testes sobre os parâmetros média e variância. 
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Aqui, o teste comparará o número de casos ocorridos em caseias especificadas, com o 
número esperado de casos nelas, quando a hipótese H 0 for verdadeira. 

O procedimento consiste em considerar classes, segundo as quais a variável X, 
característica da população, pode ser classificada. A variável X pode ser qualitativa ou 
quantitativa. Neste capítulo estudaremos um teste no qual as probabilidades da v.a. X 
pertencer a cada uma das classes são especificadas. A estatística usada será (14.1). 

Exemplo 14.1. Um dado é lançado 300 vezes, com os resultados dados na Tabela 14.1. 
Por enquanto, considere somente a linha correspondente às freqüências observadas. 
Com os resultados observados, queremos saber se o dado é "honesto", isto é, se a proba¬ 
bilidade de ocorrência de qualquer face é 1/6. Ou seja, queremos testar a hipótese 

H 0 : Pi =p 2 = ... =p 6 = 1/6, 

onde p ( . = P (face /'), / = 1, 2, ..., 6. Isso equivale a dizer que P 0 segue uma distribuição 
uniforme discreta. 


Tabela 14.1: Resultados do lançamento de um dado 300 vezes. 


Ocorrência (/) 

1 

2 

3 

4 

5 

6 

Total 

Freq. Observada (n.) 

43 

49 

56 

45 

66 

41 

300 

Freq. Esperada (n‘) 

50 

50 

50 

50 

50 

50 

300 


2. Testes de Homogeneidade 
Considere o seguinte exemplo. 

Exemplo 14.2. Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências 
H umanas e a 100 alunos de C iências B iológicas. A s notas são classificadas segundo os graus 
A, B, C, D e E (onde D significa que o aluno não recebe créditos e E indica que o aluno foi 
reprovado). Os resultados estão na Tabela 14.2. 


Tabela 14.2: Resultados da aplicação de uma prova de Estatística a 100 alunos de Ciências 
Humanas e 1OO alunos de Biologia. 


Aluno 

Grau 

Total 







de 

A 

B 

C 

D 

E 


C. Humanas 

15 

20 

30 

20 

15 

100 

C. Biológicas 

8 

23 

18 

34 

17 

100 

Total 

23 

43 

48 

54 

32 

200 


Queremos testar se as distribuições das notas, para as diversas classes, são as mesmas para 
os dois grupos de alunos. Esse teste pode ser estendido para o caso de três ou mais populações. 
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Testes desse tipo já foram vistos no Capítulo 13, onde queríamos testar a hipótese 
(13.1). Estudamos lá dois testes, o t de Student e o de Wilcoxon. Para esses testes, supomos 
ou que as populações sejam normais ou, então, preferencialmente, que tenham distribui¬ 
ções contínuas (não necessariamente normais). Mas, de qualquer modo, testávamos sepa¬ 
radamente se as duas populações diferiam em localização ou escala. No caso presente 
iremos apresentar um teste baseado na estatística (14.1), que contempla alternativas gerais; 
por exemplo, as populações podem diferir-se em localização e escala. 

Novamente, para efetuar o teste, consideramos amostras das duas populações, P 2 e 
P 2 , e classificamos os seus elementos de acordo com certo número de categorias para 
as duas variáveis características de P 2 e P r 

3. Testes de Independência 

Vimos, no Capítulo 4, a importância de quantificar o grau de associação entre duas 
variáveis, usando a estatística (14.1). Porém, essa quantificação só tem sentido se as variáveis 
não forem independentes. O teste que apresentaremos aqui supõe a existência de 
duas v.a.'s X e Y, e os valores de amostras delas são classificados segundo categorias, 
obtendo-se uma tabela de dupla entrada. Queremos testar a hipótese que X e Y são 
independentes. 

Exemplo 14.3. Uma companhia de seguros analisou a freqüência com que 2.000 segurados 
(1.000 homens e 1.000 mulheres) usaram hospitais. Os resultados estão na Tabela 14.3. 
A hipótese a testar é que o uso de hospital independe do sexo do segurado (veja o Problema 6 
do Capítulo 4). 


Tabela 14.3: Freqüências com que 2.000 segurados usaram hospital. 



Homens 

Mulheres 

Usaram hospital 

100 

150 

Não usaram hospital 

900 

850 


4. Teste para o Coeficiente de Correlação 

Quando se investiga associação entre duas variáveis quantitativas, o artifício de 
agrupar os dados em intervalos (classes) reduz a variável quantitativa a um caso parti¬ 
cular de variável qualitativa, assim, poderíamos usar as mesmas técnicas da análise 
desse último tipo de variável. Mas esse procedimento pode não ser o melhor possível, 
e o uso do coeficiente de correlação como medida de associação entre variáveis quan¬ 
titativas é o caminho mais apropriado. Na seção 14.5 voltaremos a tratar desse tema 
agora sob o ponto de vista da inferência. 

Para finalizar esta seção, notamos que os testes descritos nos itens (l)-(3) são todos 
baseados na distribuição qui-quadrado e são parte dos chamados testes não-paramétricos. 
Para essa classe de testes não se supõe que a população (ou populações) siga algum modelo 
particular, como fizemos para alguns dos testes dos Capítulos 12 e 13. Na seção 14.6 
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introduzimos, por meio de um exemplo, um outro tipo de teste não-paramétrico de ade¬ 
rência, baseado na comparação da distribuição empírica dos dados com a distribuição 
hipotetizada para a população. 


14.2 Testes de Aderência 

Retomemos o Exemplo 14.1. 


Exemplo 14.1. (continuação) Para o uso da fórmula (14.1) necessitamos conhecer os 
valores esperados do lançamento do dado, sob a hipótese de ele ser "honesto", ou 
seja, sob a hipótese H 0 formulada anteriormente. Observamos da Tabela 14.1 que o 
dado foi lançado 300 vezes. Então, se H 0 for verdadeira, esperaremos 50 casos em 
cada caseia, como mostrado na tabela. Na fórmula (14.1) e na tabela denotamos as 
freqüências observadas por n. e as esperadas por n*. Usando a fórmula podemos cal¬ 
cular o qui-quadrado observado, 


, 2 _ (43 - 50) 2 (41 - 50) 2 

'° bs 50 50 


376 

50 


= 8,56. 


Como veremos a seguir, essa estatística, sob H 0 , segue uma distribuição qui- 
quadrado, com o número de graus de liberdade apropriado. Imagine que queiramos 
simular uma amostra de 300 lançamentos de um dado. O problema seria o de preen¬ 
cher as seis caseias correspondentes às freqüências n., na Tabela 14.1, com a restrição 
de a soma ser 300. É fácil ver que só podemos preencher "livremente" cinco das 
caseias, uma delas (qualquer) resultará como a diferença entre 300 e a soma dessas 
cinco. Temos, então, cinco "graus de liberdade" para preencher as caseias. 

Consultando a Tabela IV, com a = 0,05 e 5 graus de liberdade, encontramos o 
valor crítico x] = 11,070, que é maior do que X 2 0bs = 8,56, logo, não rejeitamos H 0 . Ou 
seja, há evidências de que o dado seja honesto. 

O problema aqui pode ser caracterizado da seguinte maneira. Temos uma amostra 
X v ..., X n da v.a. X que caracteriza a população P e queremos testar a hipótese 

H 0 :P=P 0 (14.2) 

onde P 0 tem uma distribuição de probabilidades especificada. M uitas vezes, como é o 
caso de variáveis qualitativas e variáveis discretas, a variável X de interesse da popu¬ 
lação é categorizada em classes A v A v ..., A s e temos as probabilidades p. = P (X e A), 
i = 1, 2,..., s. Então, a hipótese H 0 pode ser formulada de modo equivalente como 

^ 0 ■ Pi — P 10 ' Pl ~ P 20 ’ ■■■' Ps — PsO' 

ond ep i0 são os valores especificados pela hipótese nula, ou seja, são as probabilidades co¬ 
nhecidas que determinam P 0 . 

No caso de uma v.a. discreta X, assumindo os valores / = 0, 1, 2, ..., temos 
que p, = P (X = /), / =s 0; X pode ser uma v.a. binomial, ou Poisson ou ainda 
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geométrica, por exemplo. Poderemos querer testar se a amostra observada vem 
de uma dessas distribuições. 

Se X for uma v.a. contínua, poderemos dividir o seu domínio de variação em inter¬ 
valos (de mesma amplitude, por exemplo) e construir a distribuição de freqüências 
correspondente, como fizemos no Capítulo 2. Por exemplo, poderemos querer testar 
se nossa amostra foi escolhida de uma população com distribuição normal (média e 
variância especificadas). 

Em todas as situações obtemos uma tabela de contingência 1 x s, como aquela 
formada pela primeira linha (freqüências observadas) da Tabela 14.4. 


Tabela 14.4: Freqüências observadas e esperadas numa tabela 1 x s. 


Categoria 




A s 

Total 

Freq. Observadas 

Or 

0 2 


o 5 

n 

Freq. Esperadas 

E 1 

E 2 


E s 

n 


Incidentalmente, o modelo probabilístico apropriado para essa situação é o modelo 
multinomial. Veja o Problema 27. 

Vamos escrever a estatística (14.1) na forma 


X 2 =- 


(O, - E;) 


i =1 


(14.3) 


onde O j representa o valor efetivamente observado para a classe A f , e E j representa o 
valor esperado, sob a hipótese H 0 , para a classe A.. Como temos n observações, os valores 
esperados sob H 0 são dados por 


Ei=np i0 , / = 1, 2.s. (14.4) 

Se a hipótese H 0 for verdadeira, pode-se demonstrar que X 2 tem uma distribuição 
qui-quadrado com (s - 1) graus de liberdade. 

A hipótese alternativa a H 0 é que pelo menos uma das igualdades não valha, ou seja, 


H 1 : p p , para pelo menos um j. (14.5) 

Rejeitaremos H 0 se o valor da estatística (14.3) for grande, no sentido que pode¬ 
mos encontrar um valor c da Tabela IV, tal que P(X 2 (s - 1) > c) = a, para o nível de 
significância afixado. Temos, pois, um teste unilateral à direita. 


Exemplo 14.4. Um estudo sobre acidentes de trabalho numa indústria revelou que, em 
150 acidentes, obtemos a distribuição da Tabela 14.5. 
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Tabela 14.5: Acidentes de trabalho numa indústria nos dias da semana. 


Dia 

Seg. 

Terça 

Quarta 

Quinta 

Sexta 

Total 

o, 

32 

40 

20 

25 

33 

150 

E, 

30 

30 

30 

30 

30 

150 

(Oi-EflE, 

0,1333 

3,333 

3,333 

0,833 

0,300 

7,932 


O objetivo é testar a hipótese que os acidentes ocorrem com igual freqüência nos 
cinco dias da semana. Ou seja, queremos testar 


H 0 : pj =p 2 = ... =p 5 = 1/5, 

H 1 : p. A 1/5, para pelo menos um j. 

Sob a hipótese nula, os valores esperados estão na Tabela 14.5. Por exemplo, 
E 1 = 150 x 1/5 = 30 etc. O btemos 


= (32 

•^obs 


30) 2 


30 


+ ... + t 33 - 30 > 2 = 7,932. 


30 


Fixando-se a = 0,05, temos que o valor crítico de uma distribuição Z 2 (4) é 9,488, 
portanto não rejeitamos H 0 . O valor-p do teste é 

ã = P U 2 (4) > 7,932) « 0,09552, 

o que nos diz a mesma coisa. 


Exemplo 14.5. Retomemos o Exemplo 6.17, no qual consideramos o ajuste de uma distri¬ 
buição de Poisson à desintegração de substâncias radioativas. Na Tabela 6.13 tínhamos as 
informações necessárias para calcular (14.3), sendo que n k =0 k e np k = E k , k = 1, 2, ..., 11. 
Temos, então, que s = 11 e v = s - 1 = 10 graus de liberdade. O valor observado de (14.3) 
é X 2 = 12,875, e não rejeitamos H 0 , no nível de significância a = 0,05, pois o valor crítico 
obtido da Tabela IV é 18,307. Verifique que o valor-p aqui é à > 0,23. 

Finalmente, vejamos um exemplo para testar se um conjunto de dados vem de 
uma população normal especificada. 

Exemplo 14.6. Considere os dados abaixo, que supostamente são uma amostra de 
tamanho n = 30 de uma distribuição normal, de média ju = 10 e variância o 2 = 25. Os 
dados já estão ordenados. 


1,04 

1,73 

3,93 

4,44 

6,37 

6,51 

7,61 

7,64 

8,18 

8,48 

8,57 

8,65 

9,71 

9,87 

9,95 

10,01 

10,52 

10,69 

11,72 

12,17 

12,61 

12,98 

13,03 

13,16 

14,11 

14,60 

14,64 

14,75 

16,68 

22,14 


Vamos classificar esses dados em quatro intervalos, delimitados pelos quartis teóricos 
0(0,25), 0(0,5) e 0(0,75) da A/(10,25). Chamando de Z(p) os quantis da A/(0,1), temos 
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0(0,25) = 10 + 5Z( 0,25) = 10 + 5(-0,6745) = 6,6275, 
0(0,5) = 10 + 5Z(0,5) = 10 + 5(0) = 10, 

0(0,75) = 10 + 5Z( 0,75) = 10 + 5(0,6745) = 13,3725. 
A hipótese nula a ser testada é 


H 0 : P = A/(10,25). 

Tabela 14.6: Valores observados e esperados para dados, sob suposição de normalidade. 


Classes 

(-«o; 6,6275] 

(6,6275; TO] 

^3 

(10; 13,3725] 

^4 

(13,3725; +oo) 

Total 

o, 

4 

11 

9 

6 

30 

é, 

7,5 

7,5 

7,5 

7,5 

30 


Na Tabela 14.6 temos os valores observados em cada intervalo e os valores espe¬ 
rados, sob H 0 , ou seja, cada intervalo deve conter um quarto das observações, ou, 
ainda, as probabilidades das classes são dadas por 

p 1 =P{X < 6,6275) = 0,25, 
p 2 =P( 6,6275 <X < 10) = 0,25 etc. 

O valor da estatística (14.3) éX 2 = 3,87, que deve ser comparado com o valor crítico de 
uma X 2 (3), para dado nível de significância. Se a = 0,05, esse valor é 7,815, que nos leva 
a aceitar H 0 , ou seja, podemos considerar que temos uma amostra de uma normal com 
média 10 e variância 25. O valor-p do teste é maior do que 0,25. Verifique. Um gráfico dos 
quantis dos dados contra os quantis de uma normal está na Figura 14.4. Os pontos deveriam 
estar todos próximos de uma reta. Isso acontece para a maioria dos pontos, mas há pontos 
distantes da reta e, em particular, um ponto atípico no canto superior direito (o valor 22,14). 
Um histograma e um box plot dos dados estão mostrados na Figura 14.1. 


Figura 14.1: Flistograma e box plot para os dados do Exemplo 14.6. SPlus. 
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emas 


1. Calcule o valor-p para o Exemplo 14.1. 

2. Calcule os valores-p para os Exemplos 14.5 e 14.6. 

3. Um modelo genético especifica que animais de certa população devam estar classificados 
em quatro categorias, com probabilidades p 1 = 0,656, p 2 = 0,093, p 3 = 0,093, 
p 4 = 0,158. Dentre 197 animais, obtivemos as seguintes freqüências observadas: 
Oj = 125, 0 2 = 18, 0 3 = 20, 0 4 = 34. Teste se esses dados estão de acordo com o modelo 
genético postulado. 

4. Teste se os dados abaixo são observações de uma distribuição normal com média 30 e 
desvio padrão 10. 


15,9 

16,9 

18,3 

18,5 

19,0 

19,5 

21,8 

23,0 

23,8 

24,5 

26,1 

26,9 

32,3 

35,0 

36,1 

36,5 

37,2 

38,5 

40,9 

44,2 


5. Um dado foi lançado 1.000 vezes, com os seguintes resultados: 


Ocorrência 

1 

2 

3 

4 

5 

6 

Freqüência 

158 

186 

179 

161 

141 

175 


Teste a hipótese que o dado é balanceado. 


14.3 Testes de Homogeneidade 

Vimos no capítulo anterior como testar a hipótese (13.1) de que as duas popula¬ 
ções P 1 e P 2 tinham a mesma distribuição. Os testes utilizados foram baseados na 
distribuição t de Student, que assume normalidade das populações, ou o teste não- 
paramétrico de Wilcoxon (M ann-Whitney), que não faz essa suposição, mas fica bem 
mais fácil se as distribuições forem contínuas. 

O teste que apresentaremos agora pode ser usado para dados discretos ou contínu¬ 
os e serve para testar H 0 dada por (13.1) contra alternativas gerais, e não somente para 
testar diferenças de localização. 

Exemplo 14.2 (continuação) Considerando P 2 como a população de alunos de Ciências 
Humanas e P 2 a dos alunos de Ciências Biológicas, nosso objetivo é testar a hipótese 

H 0 :Pi=P 2 . 

usando os resultados amostrais da Tabela 14.2. Para isso, precisamos encontrar os 
valores esperados n*, para aplicar a fórmula (14.1). 

Inicialmente, observemos que se H 0 for verdadeira, a distribuição de probabilidades 
nas duas linhas deveria ser a mesma, e equivaleria a ter uma única população P. A última 
linha (de totais) da Tabela 14.2 representaria uma amostra de 200 alunos dessa única 
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população. A Tabela 14.7 apresenta as estimativas das proporções, em cada grau, para 
P v P 2 e P. Sendo H 0 verdadeira, deveríamos esperar para P 1 e P 2 as mesmas proporções 
observadas para P, ou valores aproximadamente iguais. Ou, ainda, todas as linhas dessa 
tabela deveriam ser iguais entre si, e iguais à linha de totais, o que aparentemente não 
ocorre. A partir dessas porcentagens podemos obter as freqüências absolutas correspon¬ 
dentes (ou valores esperados) se H 0 for verdadeira. Obtemos, então, a Tabela 14.8. 


Tabela 14.7: Porcentagens estimadas das classes para cada população. 


Aluno 

Grau 

Total 

de 

A 

B 

C 

D 

E 

C. Humanas 

15 

20 

30 

20 

15 

100 

C. Biológicas 

8 

23 

18 

34 

17 

100 

Total 

11,5 

21,5 

24 

27 

16 

100 


Tabela 14.8: Freqüências absolutas sob H 0 (n*.). 


Aluno 

Grau 

Total 

de 

A 

B 

C 

D 

E 

C. Humanas 

11,5 

21,5 

24 

27 

ló 

100 

C. Biológicas 

11,5 

21,5 

24 

27 

ló 

100 

Total 

23 

43 

48 

54 

32 

200 


Desse modo, encontramos os valores esperados n*, que podem ser substituídos 
em (14.1), obtendo-se 


*obs 


(15- 11,5) 2 + + (15 - 16) 2 + (8 - 11,5) 2 + + (17- 16) 2 = g og 

11,5 16 11,5 16 


Novamente, para consultar a tabela precisamos determinar os graus de liberdade, e va¬ 
mos usar o mesmo argumento anterior. Quantas caseias poderíamos preencher livremente 
em uma simulação, sendo que os totais marginais são conhecidos? Observando a Tabela 14.9, 
concluímos que basta preencher apenas quatro caseias, as seis restantes são encontradas por 
diferenças. Como exemplo, preenchemos quatro caseias com círculos; as demais (sinais de 
"mais") podem ser obtidas por diferenças a partir dos totais de linhas ou colunas. 


Tabela 14.9: Determinação do número de graus de liberdade. 


Aluno 

de 

Grau 

Total 

A 

B 

C 

D 

E 

C. Humanas 

C. Biológicas 

O 

+ 

+ 

O 

O 

+ 

+ 

O 

+ 

+ 

100 

100 

Total 

23 

43 

48 

54 

32 

200 
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Da Tabela IV, com a = 0,05 e 4 graus de liberdade encontramos X 2 C = 9,488, o que leva 
à não-rejeição de H 0 , ou seja, a distribuição das notas é a mesma para as duas populações. 
Observe que os valores esperados na Tabela 14.8 podem ser obtidos de rí.. = (n. n y )/n. 

Exemplo 14.7 Consideremos, novamente, o Exemplo 13.9 e verifiquemos quantos 
elementos de cada amostra caem nas seguintes classes de resistência à remoção: (0,4; 
1,0], (1,0; 1,6], (1,6; 2,2], (2,2; 2,8], Obtemos a Tabela 14.10, com os valores espera¬ 
dos entre parênteses. 


Tabela 14.10: Valores observados para amostras do Exemplo 13.12. 


Populações 

(0,4; 1,0] 

(1,0; 1,6] 

(1,6; 2,2] 

(2,2; 2,8] 

Total 

Pj(T) 

29(33) 

60(52) 

9(11) 

2(4) 

100 

P 2 (C) 

37(33) 

44(52) 

13(11) 

6(4) 

100 

Total 

66 

104 

22 

8 

200 


Utilizando (14.1) obtemos X 2 0bs = 6,1585. Como temos s = 4, rejeitaremos H 0 , se 
6,1585 > c, onde c é o valor de uma v.a. com distribuição X 2 (3), tal que P(X 2 ( 3) > c) = 
a. Com a = 0,05, obtemos c = 7,815 da Tabela IV, logo não rejeitamos H 0 no nível a. 

Esse teste pode ser estendido para o caso de termos r populações P v ..., P r e que¬ 
rermos testar a hipótese 


H 0 : P 1 =P 2 = ... =P r (14.6) 

contra a alternativa em que pelo menos duas são distintas. Obteremos uma tabela de 
dupla entrada r x s. Designando-se os tamanhos das amostras dessas populações por n v 
..., n r , com n 1 + ... + n r =N, e por n.. o número de elementos da amostra de P. classificados 
na categoria j, teremos a situação da Tabela 4.11. A hipótese a ser testada aqui é 

H o ■ Pn ~ Pn ~ ■■■ ~ Pn 


Pis ~ P2s = =Prs 

Nesse caso, a estatística (14.1) tem distribuição X 2 [v), onde 0 número de graus de 
liberdade v é dado por v = (r - l)(s - 1). O argumento para obter esse número é 0 
mesmo usado para 0 Exemplo 14.2. 


6. Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas 
públicas sejam menores que as notas obtidas por estudantes de escolas particulares, ao 
tomarem o exame vestibular para uma Universidade. Para testar essa hipótese, foram 
selecionadas duas amostras de estudantes que prestaram o vestibular, suas médias gerais 
foram anotadas e obteve-se a tabela a seguir. 
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Escola 

(0; 2,5] 

(2,5; 5,0] 

(5,0; 7,5] 

(7,5; 10,0] 

Total 

Pública 

15 

22 

18 

3 

58 

Particular 

6 

10 

20 

6 

42 

Total 

21 

32 

38 

9 

100 


Teste a hipótese que as duas populações são homogêneas, para o nível de significância 
a = 0,01. Obtenha o valor-p a. 

7. Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar um 
novo método de ensinar Probabilidades. Uma classe recebeu um método tradicional e a 
outra, o novo método. Após o curso, foi pedido que os estudantes resolvessem um proble¬ 
ma típico de Probabilidades. Os resultados foram os seguintes: 



Exercício correto 

Exercício errado 

Método convencional 


33 

17 

Método novo 


37 

13 

Há razões para acreditar que o novo 

método é superior? 



8. Duas novas drogas vão ser testadas em 160 pessoas portadoras de rinite alérgica. Metade 
das pessoas recebe a droga Aea outra metade recebe a droga B. Obtém-se a tabela abaixo. 
Teste a hipótese de que as duas drogas são igualmente eficazes para tratar a doença. 



Eficaz 

Não Eficaz 

Droga A 

55 

25 

Droga B 

48 

32 


9. Um produto novo é lançado por uma empresa, e, para verificar a sua aceitação, dois 
grupos de pessoas de duas cidades são consultados. De 100 pessoas da cidade A, 32 
gostaram do produto e, de 50 pessoas da cidade 8, 12 gostaram do produto. Há evidên¬ 
cias que o produto seja igualmente aceito nas duas cidades? 

14.4 Testes de Independência 

Retomemos o Exemplo 4.3, para efeito de ilustração. 

Exemplo 14.8. Naquele exemplo, o que se queria era verificar se a criação de determi¬ 
nado tipo de cooperativa estava associada ao fator regional. Os dados das Tabelas 4.8 
e 4.9 estão reproduzidas na Tabela 14.11. 

Como temos três linhas e quatro colunas, o número de graus de liberdade da estatís¬ 
tica é v = (3 - 1)(4 - 1) = 6. Fixando-se a = 0,05, devemos procurar um valor c, tal que 
P(X 2 ( 6) > c) = 0,05, e da Tabela IV obtemos c = 12,592. Portanto a região crítica do teste 
é RC =[12,592; +«[. 
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Vimos na seção 4.3 como construir os valores esperados, sob a hipótese de inde¬ 
pendência (ver Tabela 4.9), que estão entre parênteses na Tabela 14.11. O valor obser¬ 
vado da estatística qui-quadrado encontrado foi zL = 171,76. Como esse valor per¬ 
tence à região crítica, rejeitamos H 0 , ou seja, há uma forte dependência entre os fatores 
"tipo de cooperativa" e "região de localização". 

O nível descritivo do teste é â = P(Z 2 (6) > 171,761/-/ 0 é verdadeira) <0,1%, ou seja, 
temos uma forte indicação que H 0 deve ser rejeitada. 

A formalização dos testes de independência passa a ser como segue. Chamemos 
de p.. a probabilidade de um indivíduo ser classificado nas categorias /', / = 1, ..., r e j, 
j =1,..., s, simultaneamente; denotemos porp ; ep^as probabilidades marginais. A hipótese 
de independência pode ser escrita na forma 

H 0 : p.. =p i ,p jl para todo par (/', j), 

Hj : p„ * p h p r para algum par 

Lembremos que p. = Z] = iP fi e p y = T i=1 p r 

Tabela 14.11: Valores observados e esperados para o Exemplo 14.9. 


Estado 

Consumidor 

Produtor 

Escola 

Outras 

Total 

São Paulo 

214(157) 

237(269) 

78(143) 

119(79) 

648 

Paraná 

51(73) 

102(124) 

126(67) 

22(37) 

301 

Rio G. Sul 

111(146) 

304(250) 

139(133) 

48(73) 

602 

Total 

376 

643 

343 

189 

1.551 


A estatística a usar é novamente (14.1), que terá, sob a hipótese H 0 , uma distribui¬ 
ção qui-quadrado com v = {r - l)(s - 1) graus de liberdade. Rejeitaremos H 0 se o valor 
observado da estatística for maior do que um valor crítico, dado pela Tabela IV, fixado 
um valor do nível de significância a. 

Dado que a distribuição de qui-quadrado, nesse caso, é uma distribuição aproxi¬ 
mada, precisamos tomar certos cuidados na sua aplicação. Um deles é garantir que 
todos os valores esperados das caseias não sejam inferiores a cinco. 


10. Para o Problema 16 do Capítulo 4, teste formalmente se a opinião dos habitantes depende 
do local da residência. 

11. Teste se o uso de hospital independe do sexo para o Exemplo 14.3. 

12. Para o Problema 22 do Capítulo 4, teste se existe dependência entre os fatores: tendência 
dos alunos a prosseguir os estudos e classe social dos entrevistados. 

13. Investigando a "fidelidade" de consumidores de um produto, obteve-se uma amostra de 
200 homens e 200 mulheres. Foram classificados como tendo alto grau de fidelidade 100 
homens e 120 mulheres. Os dados fornecem evidência de possíveis diferenças de grau de 
fidelidade entre sexos? 
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14. Uma pesquisa sobre a qualidade de certo produto foi realizada enviando-se questionários 
a donas-de-casa pelo correio. Aventando-se a possibilidade de que os respondentes 
voluntários tenham um particular viés de respostas, fizeram-se mais duas tentativas com 
os não-respondentes. Os resultados estão indicados abaixo. Você acha que existe relação 
entre a resposta e o número de tentativas? 


Opinião sobre 
o produto 

N- de donas-de-casa 

1 - tentativa 

2 - tentativa 

3 a tentativa 

Excelente 

62 

36 

12 

Satisfatório 

84 

42 

14 

Insatisfatório 

24 

22 

24 


14.5 Teste Para o Coeficiente de Correlação 

0 teste apresentado na seção anterior é adequado para averigüar a independência 
de duas variáveis qualitativas. Vimos, na seção 4.5, que para variáveis quantitativas o 
coeficiente de correlação é uma medida de associação mais adequada. Usualmente, 
podemos determinar o coeficiente de correlação para uma amostra, pois desconhece¬ 
mos esse valor na população. Uma população que tenha duas variáveis não-correla- 
cionadas pode produzir uma amostra com coeficiente de correlação diferente de zero. 
Para testar se a amostra foi colhida de uma população para a qual o coeficiente de 
correlação entre duas variáveis é nulo, precisamos obter a distribuição amostrai da 
estatística r, definida em (4.7). Esquematicamente, temos a situação da Figura 14.2. 


Figura 14.2: Coeficiente de correlação para população e amostra. 



Seja p = p(X, Y) o verdadeiro coeficiente de correlação populacional desconhecido. 
Vamos apresentar a distribuição amostrai de r para duas condições da população: p = 0 e 
p A 0. Em ambos os casos, a distribuição amostrai exige que a distribuição da v.a. (X, Y) na 
população seja normal bidimensional, como definida no Capítulo 8. 

Exemplo 14.8. Teste para p = p 0 . Durante muito tempo, o coeficiente de correlação 
entre a nota final num curso de treinamento de operários e sua produtividade, após 
seis meses do curso, resultou ser 0,50. Foram introduzidas modificações no curso, 
com o intuito de aumentar a correlação. Se o coeficiente de correlação de uma amostra 
de 28 operários submetidos ao novo curso foi 0,65, você diria que os objetivos da 
modificação foram atingidos? 
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A. Hipóteses 

X: resultado no teste; Y: produtividade; 
H 0 : p(X, Y ) =0,50; 

H 1 : p(X, Y) >0,50; 


B. Estatística do Teste 

R. Fisher sugeriu a seguinte transformação para a estatística r: 

£ = y ' (14,7) 


que tem uma distribuição muito próxima de uma normal N (p, ol), com 


u = — fn 1 +Po 
^ 2 1 - Po 



1 

n - 3 ’ 


(14.8) 


sendo n o tamanho da amostra (X 1( YJ, ..., (X n , Y n ) e p 0 o valor do parâmetro 
populacional. A aproximação não vale para p = -1 ou p = 1. Além disso, para p = 0, 
temos um teste exato, que será visto no próximo exemplo. No nosso caso, sob a hipó¬ 
tese H g , Ç terá distribuição aproximadamente normal, com 


H,= 


1 

2 


Yn 


1 + 0,5 
1 - 0,5 


= 0,549, 



= 0,04. 


C. Região Crítica 

Como a hipótese alternativa sugere uma região crítica unilateral à direita, e como 
Ç ~ N (0,549; 0,04), vem que a RC para £, no nível de significância a = 0,05, será 

RC = {£ : £ > 0,549 + 1,654VÕÕ4} = {£ : £ > 0,878}. 


D. Resultado da Amostra 


Como r = 0,65, vem que 



1 + 0,65 
1 - 0,65 


= 0,774. 


E. Conclusão 

Como <^ 0 í RC, aceitamos H 0 , ou seja, não existe evidência de que o coeficiente de 
correlação tenha aumentado. 


Exemplo 14.9. Teste para p = 0. Queremos testar se existe ou não correlação entre o 
número de clientes e os anos de experiência de agentes de seguros. Sorteamos cinco 
agentes e observamos as duas variáveis. Os dados estão na Tabela 14.12. Qual seria a 
conclusão, baseando-se nesses dados? 


Tabela 14.12: Anos de experiência para cinco agentes de seguros. 


Agente 

A 

B 

C 

D 

E 

Anos de Experiência 

2 

4 

5 

6 

8 

Número de Clientes 

48 

56 

64 

60 

72 
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A. Hipóteses 
H 0 :p = 0 


H 1 : P * O 

B. Estatística do Teste 

Para amostras retiradas de uma população para a qual p = 0, pode-se provar que 
a estatística 



(14.9) 


tem distribuição t de Student com n - 2 graus de liberdade. No nosso exemplo, a 
estatística terá distribuição t( 3). 

C. Região Crítica 

Por ser um teste bilateral, consultando a Tabela V, teremos para a = 0,10, 


RC = (-oo, -2,353] U [2,353, -H»). 


D. Resultado da Amostra 

Calculando o coeficiente de correlação para os dados acima, obtemos r = 0,95; logo, 



E. Conclusão 

Como t 0 e RC, rejeitamos H 0 , isto é, existe dependência entre anos de experiência 
e números de clientes. 

Nesse caso seria conveniente construir um intervalo de confiança para p. Observe 
que, se p -h 0, devemos usar a estatística £ de (14.7). Portanto, se tomarmos por exemplo 
7 = 0,95, devemos procurar dois números ^ e <^ 2 para £ tais que 


?(£<$< = °' 95 ’ 
Como t, ~ N(p ? 1/2), podemos escrever 
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logo 


Como 


IC(p £ ; 0,95) = 1,832 ± 1,384 = (0,448; 3,216). 


H' = 1 +P 


« 2 1 - p' 

e uma expressão semelhante vale para os extremos do intervalo, podemos obter as 
operações inversas para encontrar os extremos do intervalo para p. Assim, de 


obtemos 


e de 


obtemos 


0,448 = 

2 1 - r 


00,896 1 

r = ± = 0,420, 


^0,896 


+ 1 


3,216 = 

2 1 - r 


p6,432 1 

r = e ... ~ 1 = 0,997. 


36,432 


+ 1 


Finalmente, obtemos 


IC(p; 0,95) = (0,420; 0,997). 


■ _ 

15. Estamos estudando se há ou não correlação entre as notas de diversas disciplinas de um 
curso de mestrado. Analisando uma amostra de 12 alunos, encontrou-se uma correlação 
de 0,60 entre as disciplinas de Estatística e Metodologia da Pesquisa. Teste a hipótese de 
não haver correlação entre as disciplinas. Caso a rejeite, dê um intervalo de confiança 
para o coeficiente de correlação populacional. 

16. Existe relação entre o volume de uma carga e o tempo gasto para acondicioná-la? Para 
investigar esse fato, sortearam-se nove pedidos de mercadorias, medindo-se as duas variá¬ 
veis de interesse. Com os dados obtidos abaixo, quais seriam as suas conclusões? 


Tempo 

84 

108 

110 

133 

144 

152 

180 

196 

231 

Volume 

48 

72 

63 

82 

88 

109 

112 

123 

140 


14.6 Outro Teste de Aderência 

Na seção 14.2 estudamos, por meio da distribuição qui-quadrado, como testar a hipó¬ 
tese de que um conjunto de dados provém de uma distribuição especificada. Nesta seção 
vamos introduzir uma outra maneira de testar a hipótese (14.2), por meio de um exemplo. 
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No Problema 47 do Capítulo 3 vimos que um estimador da verdadeira função densida¬ 
de de uma população é o histograma. Em particular, foi apresentada uma maneira de obter 
o intervalo de classe, baseada numa "distância" entre o histograma e a função densidade. 

Suponha que tenhamos uma amostra X v ..., X n de uma população P, sobre a qual 
estamos considerando uma v.a. X. Designemos por f(x) a função densidade e por F(x) 
a função de distribuição acumulada (f.d.a.) deX. Estimar f(x) é equivalente a estimar 
F(x). Nosso objetivo é testar se a amostra observada veio de uma distribuição de pro¬ 
babilidades especificada, e (14.2) é equivalente a 

H 0 : F(x) = F 0 (x), para todo x. 

Vamos considerar a função de distribuição empírica (f.d.e.), F e (x), definida no 
problema 17 do Capítulo 2, como um estimador de F(x), para todo valor x real. A 
situação é a da Figura 14.3. 


Figura 14.3: Gráficos da f.d.a. e f.d.e. e distâncias d =F (x (j) ) - F e (x {j] ). 



Se F e (x) for um bom estimador de F(x) as duas curvas devem estar próximas. Como 
em todo teste de hipóteses, para testar a hipótese acima, teremos que definir o que 
significa "próximo". Há várias maneiras de medir a "distância" entre F(x) e F e (x). Os 
probabilistas russos Kolmogorov e Smirnov propuseram uma estatística para o teste, 
obtida tomando o máximo dos valores absolutos das diferenças F(x ; ) - F e (x ( ), / = 1, ..., n. 
Nessas diferenças, calculadas nos valores amostrais, F(x f .) é o valor calculado sob a 
hipótese nula H 0 , ou seja, é o valor que a f.d.a. hipotetizada toma no ponto x r Formal¬ 
mente, a estatística a ser usada no teste é 

D = max IF(x.) - F (x)|. 

l^z =sn ' e ' 


(14.10) 
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O valor encontrado deve ser comparado com um valor crítico, obtido na Tabela X, 
fixado um nível de significância do teste. Se D for maior que o valor tabelado, rejeitamos H 0 . 

Retomemos o Exemplo 14.6, onde queríamos testar se 30 valores observados pro¬ 
vinham de uma distribuição normal, com média 10 e desvio padrão 5. 


Exemplo 14.6. (continuação) A hipótese a ser testada pode ser escrita na forma 

H 0 : F(x) = F 0 (x), Vx, 

H : : F(x) F 0 (x), para algum x, 

onde F Q (x) é a f.d.a. da v.a. X ~ A/(10,25). 

Lembremos que a f.d.e. F e (x) é uma função em "escada", dando um salto igual a 1/30 
em cada valor x (j) . 

Na Tabela 14.13 temos os cálculos necessários. Vemos, por exemplo: 

F 0 ( 1,04) =P(X ^ 1,04) = P (z ^ 1 '°Y 10 ) =P(Z ^ -1,792) = 0,0366, 
F e (l,04) = 1/30 = 0,0333 etc. 


Tabela 14.13: Dados para oTestede Kolmogorov-Smirnovdo Exemplo 14.2. 


x i 

F(x ; ) 

FJx.) 

|F(x,)-F.(x,)l 


F (x,.) 

W 

IF (x,) - F e (x f )| 

1,04 

0,0366 

0,0333 

0,00323 

10,01 

0,5008 

0,5333 

0,03253 

1,73 

0,0491 

0,0667 

0,01760 

10,52 

0,5414 

0,5667 

0,02525 

3,93 

0,1124 

0,1000 

0,01237 

10,69 

0,5549 

0,6000 

0,04512 

4,44 

0,1331 

0,1333 

0,00026 

11,72 

0,6346 

0,6333 

0,00124 

6,37 

0,2340 

0,1667 

0,06725 

12,17 

0,6679 

0,6667 

0,00119 

6,51 

0,2426 

0,2000 

0,04259 

12,61 

0,6992 

0,7000 

0,00083 

7,61 

0,3163 

0,2333 

0,08299 

12,98 

0,7244 

0,7333 

0,00892 

7,64 

0,3185 

0,2667 

0,05180 

13,03 

0,7277 

0,7667 

0,03892 

8,18 

0,3579 

0,3000 

0,05793 

13,16 

0,7363 

0,8000 

0,06369 

8,48 

0,3806 

0,3333 

0,04723 

14,11 

0,7945 

0,8333 

0,03887 

8,57 

0,3874 

0,3667 

0,02077 

14,60 

0,8212 

0,8667 

0,04545 

8,65 

0,3936 

0,4000 

0,00642 

14,64 

0,8233 

0,9000 

0,07670 

9,71 

0,4769 

0,4333 

0,04354 

14,75 

0,8289 

0,9333 

0,10439 

9,87 

0,4896 

0,4667 

0,02296 

16,68 

0,9092 

0,9667 

0,05744 

9,95 

0,4960 

0,5000 

0,00399 

22,14 

0,9924 

1,0000 

0,07591 


Os valores de F 0 (x) podem ser obtidos como na seção 7.8, por exemplo, usando o 
comando CDF do M initab. 

Da tabela, vemos que o valor máximo dos valores absolutos das diferenças é 
D =0,104. Da Tabela X, vemos que para a = 0,05, o valor crítico é 0,242, logo aceitamos 
H q , ou seja, os dados realmente são uma amostra de uma distribuição normal, com /u = 10 
e a = 5. 
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Podemos comparar os quantis (empíricos) dos dados com os quantis da normal, 
por meio de um gráfico q x q, com o objetivo de verificar que os pontos se distribuem 
ao redor de uma reta, como na Figura 14.4. 


Figura 14.4: Quantis da normal padrão contra quantis dos dados. 



14.7 Problemas e Complementos 

17. Teste a independência entre o tipo de atividade e o tipo de propriedade de embarcações 
para o Problema 20 do Capítulo 4. 

18. Supõe-se que uma moeda favoreça cara, na proporção de duas caras para três coroas. 
Para testar tai hipótese, lança-se uma moeda quatro vezes, contando-se o número de 
caras. Repete-se esse experimento 625 vezes. Os resultados estão na tabela abaixo. Esses 
dados confirmam ou não a suposição? 


N s de caras 

0 

1 

2 

3 

4 

Total 

Freqüências 

72 

204 

228 

101 

20 

625 


19. Num laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência 
com relação a dois adoçantes artificiais, A e B , obtendo-se os resultados seguintes. 


Sexo 

Preferem A 

Preferem B 

Indecisos 

Feminino 

50 

110 

40 

Masculino 

150 

42 

8 


A distribuição de preferências pelos dois sexos é a mesma? Calcule o valor-p. 
























418 


CAPÍTULO 14 — ANÁLISE DE ADERÊNCIA E ASSOCIAÇÃO 


20. Prove que (14.3) pode ser escrita na forma 

S 

* 2 =Zo, 2 /E, - n. 

»=1 

21. Teste, para o nível de 5%, se existe correlação ou não entre o setor primário e o índice de 
analfabetismo, usando a amostra do Problema 11 do Capítulo 4. Caso a resposta seja 
afirmativa, construa um IC de 95% de confiança para p. 

22. No Problema 28 do Capítulo 4, use as sugestões dadas para testar a hipótese p - 0. 

23. Suspeita-se que o coeficiente de correlação entre o salário do marido e o da mulher seja 
de 0,60 ou mais. Para verificar tal hipótese, colheu-se uma amostra de 10 casais, obser¬ 
vando-se o salário de ambos. Veja os resultados no Problema 29 do Capítulo 4. Qual 
seria sua conclusão? 

24. No Problema 26 do Capítulo 4, temos três variáveis, X,Y e Z, e queremos verificar qual é 
maior, p(X, Y) ou p(X, Z). Verifique se algum dos coeficientes de correlação pode ser 
considerado como sendo nulo. 

25. Comparação dos coeficientes de correlação de duas populações. Vamos supor que p l e p 2 
sejam os coeficientes de correlação de duas populações, das quais retiramos duas amostras 
independentes, de tamanhos n e/n, respectivamente. Desse modo, asv.a. 


7 1 ^ 1 +C 

Z^-Úl- -V e 

1 2 1 - r 1 



1 +r 2 
1 -r 2 


são independentes e terão, respectivamente, as distribuições 


com 





1+Pi e 

1 - Pi 



1 +P2 
1- P 2 ' 


Segue-se que a v.a. D =Z X - Z 2 terá distribuição normal, com média 


Pd =Pr 


Í l+Pi 

\1 - Pi 


1-P 2 \ 

1+P 2 / 


e variância o* =l/(n - 3) +1 l(m - 3). Quando = p 2 , temos que p D = 0. Esse resultado 
permite testar se dois coeficientes de correlação são iguais ou não. 

26. Deseja-se verificar se os homens e as mulheres reagem do mesmo modo a um pré- 
treinamento que visa prepará-los para realizar certa tarefa. Um grupo de 28 mulheres e 
52 homens são submetidos ao pré-treinamento e, em seguida, mede-se a correlação 
entre o resultado no teste do curso e o número de erros cometidos ao realizar a tarefa. Os 
coeficientes de correlação observados foram: para as mulheres, - 0,82; para os homens, 
- 0,52. Usando os resultados do problema anterior, qual seria sua conclusão? Interprete o 
significado do coeficiente de correlação negativo. 
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27. Distribuição multinomial. Suponha que, quando realizamos um experimento aleatório, os 
resultados possíveis são os eventos A v /4 s , com probabilidades p j = P(A j ), 
i = 1,s, X,Pj = 1. Suponha que repetimos o experimento n vezes e que p permanece 
constante em todas as repetições. Defina as v.a. X v ...,X s como: 

X, = número de vezes que/l ocorre nas n repetições, / = 1.s. 

Então, temos que 


P (X 1 =n 1 ,X 2 =n 2 . X s =nJ = 


n r n 2 ! 




com Mj + ... + n = n. Se 5 = 2 obtemos a distribuição binomial. Observe que X : + ... + 

+ X s =n,logoasv.a.X 1 . X s não são independentes. Como cada X ( . ~ B in(n, p), obtemos 

E (X f ) =np i , Var(X f ) = np,(l - p,), i = 1.s. 

28. Suponha que uma empresa quer saber o efeito de fumar sobre testes respiratórios para seus 
trabalhadores. Suponha que os trabalhadores são divididos em três classes: nunca fumou, 
fumou no passado e fumante, e que dados anteriores mostram que as porcentagens de 
trabalhadores nessas três classes são, respectivamente: 52%, 12%, 36%. Se dez trabalha¬ 
dores são selecionados ao acaso, qual a probabilidade de se obter exatamente cinco que 
nunca fumaram, dois que fumaram no passado e três fumantes atuais? 


29. Teste, para o nível a = 0,05, que os dados abaixo são de uma amostra de uma distribui¬ 
ção uniforme no intervalo (0,1). 


0,145 

0,299 

0,516 

0,901 

0,433 

0,430 

0,932 

0,356 

0,178 

0,248 

0,882 

0,125 

0,517 

0,519 

0,251 

0,191 

0,661 

0,321 

0,504 

0,206 

0,224 

0,960 

0,092 

0,179 

0,974 

0,173 

0,413 

0,372 

0,887 

0,275 

0,561 

0,853 

0,527 

0,239 

0,124 

0,060 

0,968 

0,421 

0,041 

0,775 

0,810 

0,603 

0,229 

0,452 

0,874 

0,785 

0,384 

0,064 

0,990 

0,983 


30. Teste, para o nível a =0,01, se os dados abaixo provêm de uma distribuição exponencial, 
com média 0,5. 


0,378 

0,391 

0,458 

0,063 

0,009 

1,007 

0,470 

0,368 

0,831 

0,387 

0,228 

0,389 

0,627 

0,480 

0,093 

0,123 

0,089 

0,646 

0,093 

0,400 


31. Teste se os dados do CD-Notas são normais. Use o teste de aderência e o teste de 
Kolmogorov-Smirnov. 




Capítulo 1 5 


Inferência para 
Várias Populações 


15.1 Introdução 

Como vimos no Capítulo 1, uma das preocupações de um estatístico ao analisar 
um conjunto de dados é criar modelos que explicitem estruturas do fenómeno sob 
observação, as quais frequentemente estão misturadas com variações acidentais ou 
aleatórias. A identificação dessas estruturas permite conhecer melhor o fenómeno, 
bem como fazer afirmações sobre possíveis comportamentos. 

Portanto, uma estratégia conveniente de análise é supor que cada observação seja 
formada por duas partes, como vimos em (1.1) do Capítulo 1: 

observação = previsível + aleatório. (15.1) 

Aqui, a primeira componente incorpora o conhecimento que o pesquisador tem 
sobre o fenômeno e é usualmente expressa por uma função matemática, com parâmetros 
desconhecidos. A segunda parte, a aleatória (ou não previsível), representa aquilo que 
o pesquisador não pode controlar e para a qual são impostas algumas suposições, 
como, por exemplo, que ela obedeça a algum modelo probabilístico específico, que, 
por sua vez, também contém parâmetros desconhecidos. 

Dentro desse cenário, o trabalho do estatístico passa a ser o de estimar os parâmetros 
desconhecidos das duas partes do modelo, baseado em amostras observadas. 

Neste capítulo iremos investigar um modelo simples, chamado de análise de 
variância com um fator. No capítulo seguinte iremos estudar o modelo de regressão 
linear simples. As técnicas de análise de variância foram desenvolvidas principalmen¬ 
te pelo estatístico inglês Ronald A. Fisher, a partir de 1918. O leitor interessado pode 
consultar os trabalhos pioneiros de Fisher (1935, 1954) ou Peres e Saldiva (1982) para 
mais informações sobre esse assunto. 

A situação geral pode ser descrita como segue. Temos uma população P de unidades 
experimentais (indivíduos, animais, empresas etc.), para a qual temos uma v.a. Y de interesse. 



15.1 INTRODUÇÃO 


421 


Suponha, agora, que possamos classificar as unidades dessa população segundo níveis de 
um fator. Por exemplo, o fator pode ser o sexo, com dois níveis, arbitrariamente denotados 
por I: sexo masculino e 2: sexo feminino. A v.a. Y pode ser a altura de cada indivíduo. 

Genericamente podemos ter I níveis para esse fator. A população fica, então, divi¬ 
dida em I subpopulações (ou estratos), P v ..., P r cada uma representada por um nível 
i do fator, i = 1, 2, ..., I. No exemplo citado teríamos duas subpopulações: a dos indiví¬ 
duos do sexo masculino e a dos indivíduos do sexo feminino. 

Na Figura 15.1 mostramos graficamente as suposições adotadas para o comporta¬ 
mento da população neste modelo. A Figura 15.1 (a) mostra um comportamento mais 
amplo, com distribuições distintas para cada subpopulação. Na Figura 15.1 (b), aparece 
a suposição mais comum, em que a parte aleatória segue uma distribuição normal, 
com a mesma variância a 1 para todas as subpopulações p., i = 1 , 2, ..., /. 


Figura 15.1 Formas da distribuição de y para os diversos níveis do fator. 
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Para cada nível i, observamos a v.a. Y em n. unidades experimentais selecionadas 
ao acaso da subpopulação correspondente, ou seja, teremos uma amostra (y., .... yj 
dessa subpopulação. No exemplo citado acima, temos i - 1, 2, ou seja, dois níveis 
para o fator sexo. Extraímos uma amostra de tamanho n l de P 2 . pessoas do sexo mas¬ 
culino, [y u , .... y ln ), e uma amostra de tamanho n 2 de P 2 . pessoas do sexo feminino, 
(y 2V ..., y 2n ). Essas amostras são independentes. 

Suponha que E(Y) = pi para a população toda, ou seja, a média global da v.a. Y para P. 
Suponha, também, que E(Y\P) = pi., i = 1, ..., /, ou seja, as médias da v.a. Y para as 
subpopulações sejam pi v ..., pi r No nosso exemplo, ^ é a média das alturas da popula¬ 
ção de todos os indivíduos, pi 2 é a média das alturas dos homens, e/í 2 éa média das 
alturas das mulheres. 

O objetivo é estimar pi., i = 1, ..., I e testar hipóteses sobre essas médias. Uma 
hipótese de interesse é 

H 0- A*1= ^2 = - = ^ = AA (15.2) 

contra a alternativa 


H 2 . pi. * pi, para algum par (/, j). (15.3) 

O teste acima corresponde a verificar se as duas populações estão dispostas como 
na Figura 15.1 (c), ou seja, os centros das distribuições têm a mesma ordenada e estão 
sobre uma reta paralela ao eixo do fator. Isso significa que o fator não tem influência sobre 
a média da variável sob observação. 

A análise da variância pode ser pensada como um método para testar a hipótese H 0 
acima, por meio da análise das variâncias das diversas amostras. Esse método estende 
aquele visto no Capítulo 13, onde comparávamos apenas duas médias. A teoria desen¬ 
volvida naquele capítulo envolvia situações mais amplas do que as que serão vistas 
aqui. Sob as mesmas suposições os dois métodos são equivalentes. Porém, não pode¬ 
mos usar os métodos do Capítulo 13 para comparar mais do que duas populações. 
Poderia ser aventada a possibilidade de testar as hipóteses duas a duas, mas isso traz 
problemas relacionados no nível de significância do teste global, já que efetuaremos 

|y testes parciais. Voltaremos a esse assunto na seção 15.4, 

Um modelo conveniente para descrever essa situação é 

yij = P, + e.. i = 1, ..., I, j = 1, .... n., (15.4) 

para o qual supomos que e. são v.a. independentes, de média zero e variância o], 
desconhecida, por exemplo, iodemos adicionar a hipótese de que esses "erros" sejam 
normais, ou seja, 

e i} ~ MO, a 2 ), (15.5) 


para i = 1, 2, ..., /, j = 1, 2, ..., n. 
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Logo, além de estimar n v ■■■> lí,, temos que estimar também o\ Se (15.4) e (15.5) 
valerem, teremos I subpopulações normais M/u., o e 2 ), i = 1, 2, ..., /, que têm médias 
diferentes e mesma variância. A Figura 15.1 (b) ilustra essa situação, com 7 = 4. 

O modelo (15.4) é chamado modelo com efeitos fixos, no sentido de que as 
subpopulações determinadas pelos níveis do fator são aquelas de interesse do pesquisador. 
Se o experimento fosse repetido, amostras aleatórias das mesmas subpopulações seriam 
extraídas e analisadas. Pode-se considerar, também, modelos com efeitos aleatórios, 
mas esse caso não será tratado neste livro. 

Exemplo 15. I Um psicólogo está investigando a relação entre o tempo que um indi¬ 
víduo leva para reagir a um estímulo visual (Y) e alguns fatores, como sexo (w), idade 
(X) e acuidade visual (Z, medida em porcentagem). Na Tabela 15.1 temos os tempos 
para n - 20 indivíduos (valores da v.a. Y). O fator sexo tem dois níveis: i = 1: sexo 
masculino (H) e i = 2: sexo feminino (M), com n 1 = n 2 = 10. O fator idade tem cinco 
níveis: i = 1: indivíduos com 20 anos de idade, i = 2: indivíduos com 25 anos etc., i = 5: 
indivíduos com 40 anos. Aqui, n 1 = ... = n 5 = 4. A acuidade visual, como porcentagem 


Tabela 15.1: Tempos de reação a um eslímulo (Y) e acuidade visual (Z) de 20 indivíduos, segundo 
o sexo (W)ea idade (X). 


Indivíduo 

Y 

W 

X 

Z 

1 

96 

H 

20 

90 

2 

92 

M 

20 

100 

3 

106 

H 

20 

80 

4 

100 

M 

20 

90 

5 

98 

M 

25 

100 

6 

104 

H 

25 

90 

7 

110 

H 

25 

80 

8 

101 

M 

25 

90 

9 

116 

M 

30 

70 

10 

106 

H 

30 

90 

11 

109 

H 

30 

90 

12 

100 

M 

30 

80 

13 

112 

M 

35 

90 

14 

105 

M 

35 

80 

15 

118 

H 

35 

70 

16 

108 

H 

35 

90 

17 

113 

M 

40 

90 

18 

112 

M 

40 

90 

19 

127 

H 

40 

60 

20 

117 

H 

40 

80 
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da visão completa, também gera cinco níveis: i = 1: indivíduos com 100% de visão, i = 2: 
indivíduos com 90% de visão, e assim por diante. Não foi possível controlar essa 
variável a priori como as outras duas, já que ela exige exames oftalmológicos para sua 
mensuração. Daí o desbalanceamento dos tamanhos observados: n l = 2, n 2 , = 10, n 3 = 5, 
« 4 = 2 e n s = 1. Fatores desse tipo são chamados de co-fatores. 

Assim, para o fator sexo, teremos o modelo (15.4) com / = 1, 2, j = 1, 2, 3, ..., 10, 
e para o fator idade, o mesmo modelo com i = 1, 2, ..., 5, j = 1, 2, 3, 4. 

Exemplo 15.2. Uma escola analisa seu curso por meio de um questionário com 50 ques¬ 
tões sobre diversos aspectos de interesse. Cada pergunta tem uma resposta, numa escala 
de 1 a 5 (v.a. Y), onde a maior nota significa melhor desempenho. Na última avaliação 
usou-se uma amostra de alunos de cada período, e os resultados estão na Tabela 15.2. 
Aqui, o fator é período, com três níveis: i = 1: manhã, i = 2: tarde e / = 3: noite; temos n 2 = 7, 
n 2 = 6 e « 3 = 8. 


Tabela 15.2: Avaliação de um curso segundo o período. 


Período 

Manhã 

Tarde 

Noite 

4,2 

2,7 

4,6 

4,0 

2,4 

3,9 

3,1 

2,4 

3,8 

2,7 

2,2 

3,7 

2,3 

1,9 

3,6 

3,3 

1,8 

3,5 

4,1 


3,4 



2.8 


Exemplo 15.3. Num experimento sobre a eficácia de regimes para emagrecer, ho¬ 
mens, todos pesando cerca de 100 kg e de biotipos semelhantes, são submetidos a três 
regimes. Após um mês, verifica-se a perda de peso de cada indivíduo, obtendo-se os 
valores da Tabela 15.3. 


Tabela 15.3: Perdas de peso de indivíduos submetidos a três regimes. 



Regime 


1 

2 

3 

11,8 

7,4 

10,5 

10,5 

9,7 

11,2 

12,5 

8,2 

11,8 

12,3 

7,2 

13,1 

15,5 

8,6 

14,0 

11,4 

7,1 

9,8 
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Aqui, o fator é regime, com 7 = 3 níveis e cada regime é indexado por; i = 1, 2, 3. 
A v.a. Fé a perda de peso depois de um mês. E(Y) = /u é a perda de peso global dos 18 
homens, n. é a perda média de peso para o regime i. As amostras têm todas o mesmo 
tamanho n Y = n 2 = n 2 = 6. 


1. O modelo (15.4) pode ser escrito na forma 


FrA+a+V 

com i = 1,.... lej = 1,.... n.. Dizemos que a., é o efeito diferenciado da subpopulação P ou do 
nível i do fator. Mostre que os estimadores de mínimos quadrados para fi e a. são dados por 


1 - 

à, = y,-y. com y i = -X> ííl 

" j= i 

se impusermos a condição i'W = 0 ■ 

2. Obtenha [1, â., para os Exemplos 15.2 e 15.3. 

15.2 Modelo para Duas Subpopulações 

Inicialmente, consideremos o caso em que temos um fator com dois níveis, como 
no Exemplo 15.1, com o fator sexo. Ou seja, queremos avaliar o efeito do sexo do 
indivíduo sobre o seu tempo de reação ao estímulo. Temos, então, o modelo 

v f ; /', - O,, (15.6) 

onde 

Hj - efeito comum a todos os elementos do nível i = 1, 2; 
e - efeito aleatório, não-controlado, do ;-ésimo indivíduo do nível i, 
y.. - tempo de reação ao estímulo do ;-ésimo indivíduo do nível i. 

15.2.1 Suposições 

É necessário introduzir suposições sobre os erros e a fim de fazer inferências 
sobre ^e /u 2 . Iremos admitir que: 

(i) e. ~ MO, cr 2 ), para todos i =1, 2 ej = 1, 2, ..., n, 

(ii) E(e r e ik ) = 0, para j * k e / = 1, 2, indicando independência entre observações 
dentro de cada subpopulação. 
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(iii) E(e v e 2k ) - O, para todo j e k, indicando independência entre observações das 
duas subpopulações. 

Com essas suposições, temos duas amostras aleatórias simples, independentes entre 
si, retiradas das duas subpopulações N{/i v o 2 ) e N{n v o 2 ). 

Queremos testar a hipótese 

H 0 ' 1^1 — ^2 


contra a alternativa 


H i : d, * jUj. 

Como já salientamos acima, esse teste pode ser conduzido com os métodos do Capí¬ 
tulo 13, mas o objetivo aqui é introduzir a metodologia da análise de variância, com um 
caso simples. A extensão para mais de dois níveis será estudada na seção 15.3. 

Note que estamos supondo que as variâncias residuais dos níveis I e 2 são iguais, ou seja, 
Var(e 1; ) =Var(e 2 .) = o 2 , para todo j = 1, ..., n, (15.7) 

Essa é a propriedade conhecida como homoscedasticidade, isto é, estamos admi¬ 
tindo que a variabilidade residual é a mesma para os dois níveis (ou que P 2 e P 2 têm a 
mesma variabilidade segundo a v.a. Y). Note também que 

E(y tj ) = ii., VarQg = Var(e.) = o 2 *. (15.8) 

15.2.2 Estimação do Modelo 

Nosso objetivo é estimar n v n 2 e a 2 no modelo (15.6), para podermos testar H 0 . 
Usaremos estimadores de mínimos quadrados. Poderíamos usar também estimadores 
de máxima verossimilhança, pois sabemos que nossas observações têm distribuição 
normal. Temos que, de (15.6), os resíduos são dados por 

e ij = Yij - AQ (!5.9) 

e a soma dos quadrados dos resíduos é dada por 

sQ(ih>th) “ y.j-di ) 2 

i =1 j =1 1=1 j= 1 

= é 1 (tu - di ) 2 + £ ( y 2j -di) 2 ’ 

j= 1 7=1 


ou seja, 


SQ(dvdi) = J2e 2 ij + J2e 2 2j . 

7=1 7=1 


(15.10) 
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Observe que essa soma de quadrados é uma função de ^e, p 2 Se as variâncias 
residuais das duas subpopulações não fossem iguais, essa soma seria mais afetada por 
aquele nível que tivesse maior variância, e isso deveria influenciar a escolha dos 
estimadores. Nesse caso, uma sugestão seria então minimizarmos a expressão (15.10) 
com ef substituída por ( e.Ja ,) 2 , com Var(e.) = cr. 2 , o que conduz a estimadores de 
mínimos quadrados ponderados. 

Derivando (15.10) em relação a p x e p 2 obtemos: 


dSQ(p v p 2 ) \ n • i 

= - 2 X>.-*U = 0 ' - 1 ' 2 ' 


do que segue que os estimadores são dados por 


1 - 

íh~-r2L,yij = yi., (i5.li) 

1 2=1 

^ n2 

^ = —= )v (15.12) 

2 2=1 

que são as médias das observações dos níveis I e 2, respectivamente. Logo, 


«1 n 2 

SQ(p v p 2 )-^2bij-yi) 2 +^2(y 2 j-y2) 2 - (15.13) 

2=1 2=1 

Podemos pensar em (15.13) como a quantidade total de informação quadrática 
perdida pela adoção do modelo (15.6). Essa soma é também denominada soma dos 
quadrados dos resíduos. 

Vejamos outra maneira de escrever essa soma. Dentro do grupo dos homens, a 
variância da subpopulação P l pode ser estimada por 

S 2 1= - T E^i;-yi) 2 . (15.14) 

n l — 1 2=1 

e a variância da subpopulação P 2 das mulheres é estimada por 

S 2 2 =^ L rè l )'■ (15.15) 

n 2 — 1 2=1 

Segue-se que 

SQ(p 1 ,p 2 ) = (n 1 ~l)S 2 1 +(n 2 ~l)S 2 2 . ( 15 . 16 ) 
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Temos, acima, dois estimadores não-viesados do mesmo parâmetro o} e, portanto, 
podemos definir uma variância amostrai ponderada 


S 2 _ (?? 1 -l)5 1 2 + (n 2 -l)5 2 2 

n i + n 2 —2 

e, usando (15.16), podemos escrever 

g2 _ SC)(/+/+) 


(15.17) 


(15.18) 


se n = n l + n 2 . Vemos que 5 2 é a quantidade média de informação quadrática perdida e é 
um estimador não-viesado de a). Observe que esse é o mesmo estimador definido em (13.10). 

Temos, portanto, um primeiro enfoque para estimar a variância desconhecida, <j 2 , por 
meio da variância devida ao erro OU variância dentro de amostras, dada por 5 2 , que é 
baseada nas variâncias amostrais, dadas por (15.14) e (15.15). A soma de quadrados 
(15.16) é também chamada de soma de quadradros dentro dos grupos. 

Um outro enfoque será visto mais adiante, e que consiste em estimar <j 2 , através de 
uma variância entre amostras, baseada na variabilidade entre as médias amostrais, 
também chamada variação devida ao fator. 


Exemplo 15.1. (continuação) Para os dados da Tabela 15.1, temos: 

Grupo dos Homens (nível I): = 110,1, -y) 2 = 670,9, S 2 = 74,54; 

Grupo das Mulheres (nível 2): y 2 =104,9, -y 2 ) 2 = 566,9, S 2 =62,99. 

Segue-se que 


5. 2 = 


670,9 + 566,9 1.237,8 


18 


18 


= 68,77, 5=8,29. 


Note que a soma dos quadrados dos resíduos é 


SQ(p v il 2 ) = SQ(y 1 ,y 2 ) = 1.237,8. 

Observe, também, que y 1 e y 2 , denotam os tempos médios estimados de reação ao 
estímulo dos homens e mulheres, respectivamente. 

Uma questão de interesse é a seguinte: será que o conhecimento do sexo de um 
indivíduo ajuda a melhorar a previsão do tempo de reação dele ao estímulo? Para 
responder a essa questão, devemos ter algum modelo alternativo para poder comparar 
os ganhos. O modelo usualmente adotado é o mais simples de todos, ou seja, aquele 
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que considera os dados vindos de uma única população. Suponha que os valores da 
v.a. Y para todos os n = 20 indivíduos sigam o modelo 

y. = H+e i , i = 1, 2.20. (15.19) 

Podemos considerar esse modelo como sendo para uma população, ou seja, aquela 
de todos os indivíduos para a qual queremos investigar o tempo de reação ao estímulo, 
independentemente do sexo, idade e outros fatores. 

Para o modelo (15.19) a soma dos quadrados dos resíduos é 


SQ[p) = Y J e* =Y J [y.-p) 2 , (15.20) 

2=1 2=1 

e o estimador de mínimos quadrados de p, é obtido derivando-se (15.20) com relação 
a p e igualando a zero, chegando-se a 


A = “è^=y- (15.21) 

n 2=1 

ou seja, a média de todas as observações. Como aqui y. ~ N(p, <r 2 ), um estimador da 
variância residual o 2 é 

e 


S 2 


1 

n — 1 


XX y i _ T) 2 


S Q(p) 

n—1 


ou seja, a nossa conhecida variância amostrai. 
Para os dados da Tabela 15.1, encontramos 


(15.22) 


y = 


2.150 

20 


107,50, 


2 = i£/£ 5 = 8,5. 

19 

Assim, sem informação adicional, podemos prever o tempo de reação de um indi¬ 
víduo como sendo 107,50, com um desvio padrão de 8,5. Os resíduos desse modelo e 
do modelo (15.6) estão na Tabela 15.4, colunas *?(l) e e(2), respectivamente. Compa¬ 
rando esses resíduos, vemos que os segundos melhoram um pouco as previsões, isto 
é, fazem cair o erro quadrático médio de 8,5 para 8,29. Mas essa queda nos parece 
pequena para justificar a inclusão do fator sexo no modelo, e talvez fosse preferível 
adotar o modelo mais simples (15.19). 
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Tabela 15.4: Resíduos para vários modelos ajustados aos dados do Exemplo 15.1. 


Resíduos dos Modelos 


variaveis 

e(l) 

e(2) 

e(3) 

Indivíduo 

Tempo de 
Reação 

Sexo 

Idade 

y,-y 

ytj-yi 

y*-y. 

1 

96 

H 

20 

-11,50 

-14,1 

-2,50 

2 

92 

M 

20 

-15,50 

-12,9 

-6,50 

3 

106 

H 

20 

-1,50 

-4,1 

7,50 

4 

100 

M 

20 

-7,50 

-4,9 

1,50 

5 

98 

M 

25 

-9,50 

-6,9 

-5,25 

6 

104 

H 

25 

-3,50 

-6,1 

0,75 

7 

110 

H 

25 

2,50 

-0,1 

6,75 

8 

101 

M 

25 

-6,50 

-3,9 

-2,25 

9 

116 

M 

30 

8,50 

11,1 

8,25 

10 

106 

H 

30 

-1,50 

-4,1 

-1,75 

11 

109 

H 

30 

1,50 

-1,1 

1,25 

12 

100 

M 

30 

-7,50 

-4,9 

-7,75 

13 

112 

M 

35 

-4,50 

7,1 

1,25 

14 

105 

M 

35 

-2.50 

0,1 

-5,75 

15 

118 

H 

35 

10,50 

7,9 

7,25 

16 

108 

H 

35 

0,50 

-2,1 

-2,75 

17 

113 

M 

40 

5,50 

8,1 

-4,25 

18 

112 

M 

40 

4,50 

7,1 

-5,25 

19 

127 

H 

40 

19,50 

16,9 

9,75 

20 

117 

H 

40 

9,50 

6,9 

-0,25 

d. P . 




8,50 

8,29 

6,08 

2d.p. 




17,00 

16,58 

12,16 


Nota: Nesta tabela estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os "lucros" na adoção de cada modelo. 
No texto aparece o significado de cada coluna dos resíduos. 


15.2.3 Intervalos de Confiança 

Com as suposições feitas sobre os erros, podemos escrever 

y 1 ~N(ii í ,o) I i\), y 2 ~ N(/J, 2 ,a 2 e / n 2 ), (15.23) 


o que permite construir intervalos de confiança separados para os dois parâmetros Ui e 
H 2 , como já vimos anteriormente. Esses têm a forma 


y i ^ r~' 

Jn, 


i = 1, 2, 


(15.24) 
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onde t é o valor crítico da distribuição t de Student com v = n - 2 graus de liberdade, 
tal que P{-t^<t[n-2) <t ) = 7 , 0 < y< 1. Observe que 0 número de graus de liberda¬ 
de é (n - 2) e não n. - I, porque 

w (n — 2)S 2 2 , ^ 

W =-j— \ n ~2-) 

z, 

e, portanto, t== = = --- tem distribuição t[n - 2) pelo Teorema 7.1. 

V WI(n — 2 ) \ 

Daqui, obtemos (15.24). 


Exemplo 15.1. (continuação) Para 0 Exemplo 15.1, temos: 


IC( Ml ; 0,95) =110,10±(2,101)8,29/VÍÕ=]104,59; 115,611, 


IC(/u 2 ; 0,95) = 104,90±(2,101)8,29/VÍÕ=]99,39; 110,411, 

com í 0 95 = 2,101 encontrado na Tabela V, com v = 18 graus de liberdade. 

Ainda, com as suposições feitas, podemos concluir que 

yi~y 2 ~/V(/LAi-/A 2 , o) I n x + a] / n 2 ), (15.25) 

de modo que a estatística 


(y 1 -y 2 )-(/h-i- l 2 ) i 

S e y]ll «2+1/ n 2 ) 


(15.26) 


tem distribuição t de Student com v = n 1 + n 2 - 2 = n - 2 graus de liberdade, e um 
intervalo de confiança para a diferença - p 2 pode ser construído. 


Exemplo 15.1. (continuação) Para 0 exemplo, 

IC(/Xj-/i 2 ; 0,95) = (y 2 - y 2 ) ± t y S ey ]lI n 2 +11 n 2 

= (110,1-104,9)±(2,101)(8,29Wl/10 + l/10=]-2,59; 12,99[. 
Este resultado implica que a hipótese 


^0 ■ Ai — Ai 


(15.27) 
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não pode ser rejeitada no nível a = 0,05, já que o zero pertence ao intervalo. Isso está 
de acordo com o resultado já apontado de que o conhecimento do sexo de um indiví¬ 
duo não irá ajudar a prever o tempo de reação ao estímulo. 

O teste da hipótese para (15.27), com as suposições adotadas, é feito usando a esta¬ 
tística (15.26), com n x + n 2 - 2 g.l., obtendo-se o valor observado t 0 = 1,40, que, compa¬ 
rado com o valor crítico de 2,101(a = 5% e 18 g.l.), leva à não-rejeição da hipótese, como 
foi visto acima. 

15.2.4 Tabela de Análise de Variância 

As operações processadas anteriormente podem ser resumidas num quadro, para 
facilitar a análise. Se (15.27) for válida, o modelo adotado será 

y.. = u+ e 

e a quantidade de informação perdida (devida aos resíduos) será dada por 

SQ(i-i) = J2Í2 ( yij-y) 2 ’ (15.28) 

i=l 7=1 

que iremos chamar de soma de quadrados total, abreviadamente, SQTot. 

Analogamente, adotado o modelo (15.4), a quantidade de informação perdida é 
dada por (15.13) OU (15.16), e que chamamos de soma de quadrados dos resíduos, 
abreviadamente, SQRes, ou soma de quadrados dentro dos dois grupos, abreviadamente, 
SQDen. 

A economia obtida ao passarmos de um modelo para outro será 

SQTot- SQDen =SQEnt, (15.29) 

que chamaremos de soma de quadrados entre grupos. Não é difícil provar que (veja o 
problema 18) 


SQEnt = Y J n l (y-y) 2 . (15.30) 

i =1 

Observando essa expressão, vemos que ela representa a variabilidade entre as médi¬ 
as amostrais, ou seja, uma "distância" entre a média de cada grupo e a média global. 
Donde o nome "soma de quadrados entre grupos". Quanto mais diferentes forem as 
médias y., i = 1, 2, maior será SQEnt e, conseqüentemente, menor será SQDen. 

As quantidades 


SQTot 


QMTot 


n — 1 


(15.31) 
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e 



(15.32) 


são chamadas quadrado médio total e quadrado médio dentro (OU residual), respec- 
tivamente. 

Todas essas informações são agrupadas numa única tabela, conhecida pelo nome 
de A NOVA (abreviação de A Nalysis Of VAriance), descrita na Tabela 15.5. 


Tabela 15.5: Tabela de Análise de Variância (ANOVA). 


F.V. 

g.l. 

SQ 

QM 

F 

Entre 

1 

SQEnt 

QMEnt 

QMEnt/S, 2 

Dentro 

n - 2 

SQDen 

QM Den (ou S 2 ) 


Total 

n - 1 

SQTot 

QM Tot (ou S 2 ) 



Na primeira coluna temos as descrições das diferentes somas de quadrados, tec¬ 
nicamente indicadas por fontes de variação (F.V.). Os graus de liberdade (g.l.) da 
segunda coluna estão associados às respectivas somas de quadrados, sendo que o 
número de g.l. da SQE é obtido por subtração. Falaremos abaixo sobre QMEnt e a 
razão F = QM Ent/QM Den. 

Exemplo 15.1. (continuação) Com os dados obtidos anteriormente para o Exemplo 15.1, 
podemos construir a tabela ANOVA para o modelo (15.4). O resultado está na 
Tabela 15.6. 


Tabela 1 5.6: Tabela ANOVA para o Exemplo 15.1. 


F.V. 

g.l. 

SQ 

QM 

F 

Entre 

1 

135,20 

135,20 

1,97 

Dentro 

18 

1.237,80 

ó8,77 


Total 

19 

1.373,00 

72,26 



Da ANOVA encontramos os desvios padrões residuais S e = ^68,77 = 8,29do "mo¬ 
delo completo" (15.4) e s = ^12,26 =8,50- do "modelo reduzido" (15.19). A econo¬ 
mia propiciada ao passar de um modelo para outro, em termos de soma de quadrados, 
é 135,20, e em termos de quadrados médios, comparando 72,26 e 68,77. Proporcio¬ 
nalmente, economizamos 


135,20 


0,0985 f» 9,85%, 


1.373,00 
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ou seja, aproximadamente 10% na SQ de resíduos. Podemos dizer que essa é a pro¬ 
porção da variação explicada pelo modelo (15.9). Essa medida é chamada coeficiente 
de explicação do modelo, denotada por 


.2 _ SQEnt 
SQTot' 


(15.33) 


Essa medida já foi usada na seção 4.6. Veja o problema 27. 

A conveniência ou não do modelo (15.4) está associada ao teste (15.27), já que 
aceitar essa hipótese implica a adoção do modelo (15.19). Com as suposições feitas, a 
estatística para o teste é (15.26), que, sob H 0 fica 


yi~yi 

S^l/n.+l/n, ’ (15 ' 34) 

que tem distribuição t(n 1 + n 2 - 2). Também sabemos que o quadrado de rtem distri¬ 
buição F(l, / 7 1 + 77 2 - 2) (ver seção 13.3). Contudo, 

QM Ent = SQEnt = n 1 (y 1 -y) 2 + n 2 (y 2 -y) 2 , 


e como 


__ 77i)í + n 2 y 2 
i\ + n 2 


podemos escrever 


Q MEnt = ^My 1 ^y 2 ) 2 

>\ + n 2 


(% — T 2 ) 2 

1 / n 1 +1 / n 2 


Logo, concluímos que 


(.Vi-y 2 ) 2 _ QM Ent 

5 2 (l/?7 1 +l/ 77 2 ) s] 


(15.35) 


(15.36) 


Essa é a estatística que aparece na última coluna da tabela A NOVA. Portanto, po¬ 
demos usar F, com (1, n - 2) graus de liberdade para testar a hipótese (15.27). Rejeita¬ 
remos h q se F > c, c determinado pelo nível de significância do teste. 


Exemplo 15.4. Da A NOVA da Tabela 15.6, vemos que o valor da estatística F é 1,97. 
Consultando a Tabela VI, com (1,18) g.l. e a= 0,05, encontramos o valor crítico 4,41. 
Logo, não rejeitamos H 0 \ = p 2 . Isso significa que não há vantagem em usar o modelo 

(15.4) no lugar de (15.19). 
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J7in 


emas 


3. Na tabela abaixo estão os dados referentes a uma amostra de 21 alunos do primeiro ano 
de um curso universitário. As variáveis são: 

Y: nota obtida na primeira prova do curso; 

X: se cursou escola particular (P) ou oficial (O); 

Z: o período em que está matriculado: manhã (M ), tarde (T), noite (N). 


y 

56 

68 

69 

70 

70 

72 

75 

77 

83 

84 

84 

X 

P 

O 

P 

P 

O 

O 

O 

P 

P 

P 

O 

Z 

N 

M 

M 

M 

T 

N 

M 

M 

T 

N 

N 

y 

85 

90 

92 

95 

95 

95 

100 

100 

100 

100 


X 

O 

P 

O 

P 

P 

P 

P 

P 

P 

P 


Z 

T 

T 

M 

M 

N 

T 

T 

M 

M 

T 



Considere o modeloy. =,u +e , i = 1, 2,21, e ~ MO, cx 2 ). Obtenha os erros quadráticos 
médios de fl eô 2 . Construa intervalos de confiança para /t e a 2 , com coeficiente de 
confiança 95%. Analise os resíduos do modelo. 

4. Usando os dados do problema 3, você diria que o fato de a pessoa ter cursado a escola 
particular ou oficial influi no resultado da primeira prova? Siga todos os passos do 
Exemplo 15.1 para responder a essa pergunta. 

5. Usando os dados do Exemplo 15.2, você diria que o fato de estudar durante o dia ou à 
noite afeta o desempenho dos alunos? 

6. Numa pesquisa sobre rendimentos por hora, com assalariados segundo o grau de instru¬ 
ção, obtiveram-se os dados da tabela abaixo. Construa a tabela ANOVA e verifique se 
existe diferença significativa entre os rendimentos das duas categorias. 


Escolaridade 

n 

lx. 

Yx] 

Fundamental 

50 

111,50 

259,93 

Médio 

20 

71,00 

258,89 


[Observação: rendimentos (x) expressos como porcentagem do salário mínimo.] 


7. Obtenha a tabela ANOVA para o Exemplo 15.3, usando o fator regime com os níveis I e 2. 


15.3 Modelo para Mais de Duas Subpopulações 

Para ilustrar essa situação, vamos considerar o fator idade para o Exemplo 15.1. 
Consideremos o modelo 


y.. - H + e , 

J IJ ** IJ 


(15.37) 
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para i - 1, 2, 3, 4, 5 (níveis de idade) ej - 1, 2, 3, 4 (quatro indivíduos para cada nível 
de idade). Na Figura 15.2 temos os box plots da variável resposta (tempo de reação 
estímulo), para cada nível do fator idade. Vemos claramente que o tempo aumenta 
com a idade. 


Figura 15.2 Box plots para a variável Y (estímulo) para cada nível de idade. 



Agora, queremos minimizar 

5 4 

SQ (th ./ i 5 ) = EEUrA) 2 i (15.38) 

/=i 7=i 

com as hipóteses E(e.) = 0, para todo i, j e Var(e y ) = a 2 , para todo i,j. É fácil verificar 
que os estimadores das médias p, são 

1 4 

zlyu = y,' / = 1 - 2 - 5 - (15.39) 

n i 7=1 


e que 


SQDen = SQRes = SQÍ/lj, ..., p 5 ) = '^2^2(y u -y,-) 2 , 

1=1 7=1 


SQDen = ^(/i,.-l)5, 2 , 

i=l 


ou seja, 
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onde S 2 é variância amostrais do i-é simo nível (grupo de idade). Todas essas variâncias 
amostrais são estimadores não-viesados de a 2 , logo pode-se, novamente, considerar 
o estimador ponderado 


s 2 e '■ = 

Para nossos dados, obtemos: 
(1) i = I (20 anos) 


EliK-Us, 2 SQD 


en 


n —: 


= 98,5, 

(2) i = 2 (25 anos) 
y 2 = 103,25, 

(3) i - 3 (30 anos) 
y 3 =107,75, 

(4) i = 4 (35 anos) 
y 3 = 110,75, 

(5) i - 5 (40 anos) 
y 3 = 117,25, 

Segue-se que 


Eli^-Ti) 2 = 107 '0- s i =35,67 
E-jT2,-y2) 2 = 78 - 75 - ^2 =26,25 
E^i^3y-y 3 ) 2 =132,75, 5 3 2 = 44,25 
E!-i ( T 4/ -fJ 2 = 94-75, 5 4 2 = 31,58 
Em^-Ts) 2 =140-75, 5 5 2 = 46,92. 


S 2 = 554/15 = 36,93, S e = 6,08. 

A tabela A NOVA para o fator idade está na Tabela 15.7. 


(15.40) 


Tabela 15.7: Tabela ANOVA para o Exemplo 15.1, com fator idade. 


F.V. 

g.l. 

SQ 

QM 

F 

Entre 

4 

819,00 

204,75 

5,54 

Dentro 

15 

554,00 

36,93 


Total 

19 

1.373,00 

72,26 



Da tabela concluímos que houve uma redução substancial na soma de quadrados 
(819 unidades quadradas), ou seja, 


59,65%, 
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isto é, aproximadamente 60% da variação total é explicada pelo fator idade, reduzindo 
o erro quadrático médio de 8,50 para 6,08. 

Como antes, podemos construir os intervalos de confiança para os parâmetros /u. 
Por exemplo, para o grupo de idade de 25 anos, 

IC(/i 2 ; 0,95) = 103,25± (2,131 ^ (6,08) =]96,77; 109,73[. 

Os resíduos desse modelo encontram-se na Tabela 15.4, coluna e(3), e verifi¬ 
camos que eles diminuíram bastante, indicando a boa capacidade de previsão do 
modelo. A análise dos resíduos na Figura 15.3 não sugere violação de nenhuma 
das suposições feitas. 


Figura 15.3 Resíduos do modelo y.. = n j + e.. para o fator idade. 



y 

y 
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A hipótese 


H 0 \^ 1 = ... = fi 5 (15.41) 

pode ser testada usando-se o valor 5,54 da estatística F. Da Tabela VI encontramos que 
o valor crítico de F(4,15), com a = 0,05, é 3,06, logo rejeitamos H 0 . Ou seja, há 
evidências de que os tempos médios de reação para os diversos grupos de idade não 
sejam todos iguais. 
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emas 


8. Usando os dados do problema 3, você diria que o período que o aluno está cursando 
influencia seu desempenho na primeira prova? 

9. Continuação do problema 6. Na pesquisa de salário, acrescentou-se uma amostra de 
universitários. 

(a) O grau de escolaridade influencia os rendimentos? 

(b) Qual seria o rendimento médio para pessoas com formação universitária? 

(c) Existe diferença entre os rendimentos médios daqueles com instrução universitária e 
assalariados com primeiro grau? Com segundo grau? 


Escolaridade 

n 

Xx. 

£x 2 

Fundamental 

50 

111,50 

259,93 

Médio 

20 

71,00 

258,89 

Superior 

10 

84,30 

717,94 


10. Quer-se verificar a durabilidade de duas marcas de tintas que têm preços de custo bem 
diferenciados. Para isso foram selecionadas dez casas, cinco pintadas com a marca A e 
as cinco restantes pintadas com a marca B. Após um período de seis meses, foi atribuída 
a cada casa uma nota, resultante de vários quesitos. Os resultados foram os seguintes: 


Marca A 

85 

87 

92 

80 

84 

Marca B 

91 

91 

92 

86 

90 


Com esses dados, você diria que uma das marcas é melhor do que a outra? 

15.4 Comparações entre as Médias 

A análise de variância é apenas o primeiro passo no estudo de comparação de 
médias de vários grupos. Quando o modelo que está sendo testado apresenta pouco 
poder de previsão, ou seja, quando não houver evidências para rejeitar a hipótese de 
igualdade entre as médias, então a análise é final. 0 fator que está sendo investigado 
não produz efeito nenhum sobre a variável resposta. 

Entretanto, quando o teste rejeita a hipótese de igualdade (15.2), estamos afirmando 
que ocorre pelo menos uma desigualdade, e essa conclusão na maioria dos casos não 
é suficiente para o pesquisador. Ele deseja saber de que modo ocorre essa desigualdade. 
Como ilustração, suponha que se rejeite a hipótese H 0 : ju 2 = ju 2 - n 3 . Então, existem as 
seguintes possibilidades para a alternativa: 

(1) n 2 = \x 2 a n y (2) n 2 * n 2 = (3) A ji 2 , e (4) ^ a h 2 a /z 3 . 

Existem vários métodos para resolver esse problema, e alguns deles podem ser 
vistos em Peres e Saldiva (1982). Aqui iremos discutir apenas um deles. 
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Um modo de investigar a causa da rejeição é comparar os grupos dois a dois. 
Como já foi visto na seção 15.2, isso pode ser feito por meio da construção de intervalos 
de confiança para a diferença, obtendo-se, por exemplo, 

IC = [y l -y 7 )±t 1 S eS j\ln 1 +ll n 2 , (15.42) 

com t y obtido de uma distribuição t de Student com n - / graus de liberdade. Podería¬ 
mos, então, construir os intervalos para todos os possíveis pares e, observando-se 
aqueles que não contêm o valor zero, obter conclusões sobre a razão da rejeição. 

Exemplo 15.5. Investigando o efeito da idade, vimos que a hipótese H 0 foi rejeitada. O 
intervalo de confiança para a diferença de duas médias quaisquer seria dado por 


IC( Mi - /a.; 0,95) = (y ; -y.)±(2,131)(6,08)Vl/4 + l/4 
= (y-y)±9,l6. 

Segue-se que grupos de idade cuja diferença de médias seja superior a 9,16 seriam 
diferentes. Na Tabela 15.8 observa-se que se aceita a igualdade apenas para grupos 
vizinhos, indicando uma relação mais forte entre as variáveis, fato que será explorado 
no próximo capítulo. 


Tabela 15.8: Médias e diferenças de médias para os diversos grupos de idades para o Exemplo 15.1 . 


Grupo 

20 anos 

25 anos 

30 anos 


35 anos 

40 anos 

Média 

98,50 

103,25 

107,75 


110,75 

117,25 

Diferença 

4,75 


4,50 

3,00 


6,50 


No entanto, com esse procedimento não se pode controlar as probabilidades do erro 
de tipo I, ou seja, a probabilidade de rejeitar uma hipótese verdadeira. Por exemplo, 
suponhamos que todas as médias sejam iguais. No problema acima, com cinco 
grupos e sob a hipótese nula, teríamos então = 10 possíveis comparações duas a 
duas, cada uma testada no nível de 5%, e a probabilidade de que pelo menos uma das 
comparações exceda 9,16 é bem maior do que 5% (na realidade, pode ser mostrado 
que essa probabilidade está em torno de 29%). Essa probabilidade cresce com o 
número de comparações. Para controlar melhor essa probabilidade global do erro de 
tipo I, pode ser usada uma correção, baseada na desigualdade de Bonferroni (ver 
problema 19). Usa-se, então, o intervalo 

IC ( Ui - Hj ; 7 ) = (y - y, )±t*S ey p.ln i + ll iij , (15.43) 

onde 0 único valor que muda é 0 de t* y , que tem 0 mesmo número de graus de liberdade, 
mas 0 nível de significância agora é a* - alm, onde m é 0 número de comparações duas 
a duas que desejamos fazer. 
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Exemplo 15.6. No Exemplo 15.5, d = 0,05/10 = 0,005. Da Tabela V, com 15 graus de 
liberdade, encontramos f - 3,438 (obtido por interpolação linear) e então 

\C(/i- Hj) 0,95) = (y 1 -y 2 )±(3,438)(6,08)7171 
(^-^± 14 , 78 . 

Rejeitaremos H 0 para diferenças maiores do que 14,78 e vemos que apenas existe 
diferença entre os grupos de 20 e 40 anos. 

Os intervalos de Bonferroni são conservadores, pois o nível d real será menor do 
que aquele nominal, e essa diferença aumenta com m. Portanto, recomenda-se que o seu 
uso seja restrito a um número pequeno de comparações. 


emas 


11. Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto. As quan¬ 
tidades de água que passaram pela laje, em cada tipo, foram medidas durante um mês, 
obtendo-se os valores da tabela abaixo. Que conclusão pode obter? 


1 

II 

III 

IV 

56 

64 

45 

42 

55 

61 

46 

39 

62 

50 

45 

45 

59 

55 

39 

43 

60 

56 

43 

41 


12. Os dados abaixo vêm de um experimento completamente aleatorizado, onde 5 processos de 
estocagem foram usados com um produto perecível por absorção de água. 25 exemplares 
desse produto foram divididos em cinco grupos de cinco elementos, e após uma semana 
mediu-se a quantidade de água absorvida. Os resultados codificados estão no quadro abai¬ 
xo. Existem evidências de que os processos de estocagem produzem resultados diferentes? 




Sexo 



A 

B 

C 

D 

E 

8 

4 

1 

4 

10 

6 

-2 

2 

6 

8 

7 

0 

0 

5 

7 

5 

-2 

-1 

5 

4 

8 

3 

-3 

4 

9 


15.5 Teste de Homoscedasticidade 

Uma das suposições básicas para a aplicação da técnica de A NOVA é a de 
homoscedasticidade, ou seja, que a variância seja a mesma em todos os níveis. Muitas 





















442 


CAPÍTULO 15 — INFERÊNCIA PARA VÁRIAS POPULAÇÕES 


vezes, não podemos garantir a priori se essa suposição é adequada, e podemos anali¬ 
sar os dados para obter uma resposta. Podemos fazer uma inspeção visual ou um teste. 
A seguir apresentaremos o teste de Barlett para testar a igualdade de variâncias (veja 
Dixon e M assey, 1957): 


H 0 : <Ti = a\ = ... = a] (15.44) 

As informações de que dispomos são: os tamanhos amostrais «., e variâncias 
amostrais S. 2 = 1, 2, ..., 7, com n = n l + ... +« r 
O teste é construído do seguinte modo: 

(i) calcule a variância comum 


(ii) calcule 


(iii) calcule 


S 2 = 


EEk 

n — I 


SQDen 
n — 1 


QMDen ; 


M = (n-I) InS] - Y (- D £nS?] 

i= 1 


C = 1 + 


3(7-1) 


E 


\ n t 


n — I 


(iv) construa a estatística MIC, que segue uma distribuição aproximada qui- 
quadrado, com I - 1 g.l., para amostras grandes. Esquematicamente, 

M/c ~ l 2 (/- I). 


Exemplo 15.7. Voltemos aos dados do tempo de reação ao estímulo como função da 
idade. Da amostra obtemos os seguintes resultados: 


Grupo etário 

20 

25 

30 

35 

40 

Tamanho amostra 

4 

4 

4 

4 

4 

Variância 

35,67 

20,25 

44/25 

31,58 

46,92 


Seguindo os passos (i) - (iv) acima, obtemos: 

(i) S = 36,93; 

(ii) M = (20 - 5)€«(36,93) - 3[€n(35,67) + ... + €«(46,92)] = 0,36; 


(iv) MIC = (0,36)/{l,13) = 0,32. 
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Consultando a Tabela IV, com 4 g.l. e a = 0,05, encontramos x] = 11,1, e portanto 
não rejeitamos a hipótese H 0 de igualdade de variâncias. 

15.6 Exemplo Computacional 

Vamos utilizar o M initab para ilustrar o uso de um pacote para resolver um problema 
de análise de variância. Retomemos o Exemplo 15.1, como fator idade. O Quadro 15.1 
mostra a saída do M initab, usando a opção A NOVA do menu. Observe que os valores 
encontrados coincidem com aqueles já obtidos na seção 15.3, Tabela 15.7. O valor-/? 
do teste de igualdade de médias é indicado por P = 0,006. A saída mostra também as 
estimativas das médias dos grupos, os desvios padrões e o desvio padrão ponderado, 
S = 6,08. Os intervalos de confiança individuais estão mostrados de forma pictórica, 
com uma escala anexa, notando-se intersecções que levam à rejeição da hipótese de 
igualdade de médias. 


Quadro 15.1 : ANOVA para o Exemplo 15.1. Minitab. 

One-way Analysis of Variance 
Analysis of Variance for Cl 


Source 

DF 

SS 

MS 

C2 

4 

819.0 

204.8 

Error 

15 

554.0 

36.9 

Total 

19 

1373.0 



Levei 

N 

Mean 

StDev 

20 

4 

98.50 

5.97 

25 

4 

103.25 

5.12 

30 

4 

107.75 

6.65 

35 

4 

110.75 

5.62 

40 

4 

117.25 

6.85 

Pooled 

StDev 

= 6.08 



F P 

5.54 0.006 

Individual 95% CIs For Mean 
Based on Pooled StDev 

_+ _ + _ +_ _ 

( _ * _ ) 

( _ * _ ) 

( _ * _ ) 

( _ * _ ) 

( _ * _ ) 

_+ _ + _ +_ _ 

100 110 120 


Na Figura 15.3 temos os resíduos para cada nível do fator idade, bem como os 
resíduos para todas as idades. Na Figura 15.4 vemos os box plots desses resíduos, por 
nível, e na Figura 15.5 o box plot dos resíduos para todas as idades. 











444 


CAPÍTULO 15 — INFERÊNCIA PARA VÁRIAS POPULAÇÕES 


Figura 15.4 Box plots para os resíduos 
por nível do fator idade. 



Figura 15.5 Boxplot para os resíduos 
de todas as idades. 



15.7 Problemas e Complementos 

13. A seção de treinamento de uma empresa quer saber qual de três métodos de ensino é 
mais eficaz. O encarregado de responder a essa pergunto pode dispor de 24 pessoas 
para verificar a hipótese. Ele as dividiu em três grupos de oito pessoas, de modo aleatório, 
e submeteu cada grupo a um dos métodos. Após o treinamento os 24 participantes foram 
submetidos a um mesmo teste, cujos resultados estão na tabela abaixo (quanto maior a 
nota, melhor o resultado). Quais seriam as conclusões sobre os métodos de treinamento? 


Método 1 

Método 2 

Método 3 

3 

8 

4 

7 

6 

7 

5 

4 

4 

4 

7 

9 

2 

3 

3 

2 

8 

10 

4 

9 

8 

5 

ó 

9 

Ix. 

38 


37 


62 

Zx 2 

224 


199 


496 


14. Quer-se testar o efeito do tipo de embalagem sobre as vendas do sabonete Sebo. As 
embalagens são as seguintes: 

A: a tradicional embalagem preta B : cartolina vermelha C: papel alumínio rosa 
Escolheram-se três territórios de venda, com potenciais de vendas supostamente idênticos. 
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Cada tipo de embalagem foi designado aleatoriamente a uma região e as vendas obser¬ 
vadas durante 4 semanas, obtendo-se os resultados da tabela abaixo. Quais seriam suas 
conclusões e críticas a esse experimento? 


Réplicas 

(Semanas) 

Embalagens 

A 

B 

C 

1 

15 

21 

9 

2 

20 

23 

13 

3 

9 

19 

20 

4 

12 

25 

18 

Total 

56 

88 

60 


15. Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que 
condições de preparo o produto seria mais bem aceito. Vinte e quatro donas-de-casa 
atribuíram notas (0 a 10) para o prato que produziram com o produto. Junto com o 
produto foram fornecidos quatro tipos de receitas: duas para doces (A e D ) e duas para 
salgados (B eC). Feita a análise estatística, quais recomendações você faria ao produtor? 
Discuta a validade das suposições feitas para resolver o problema. 


Receita 


A 

B 

C 

D 

2 

4 

3 

3 

5 

7 

5 

6 

1 

3 

1 

2 

7 

9 

9 

8 

2 

4 

6 

1 

6 

8 

8 

4 


16. Num curso de extensão universitária, entre outras informações, obteve-se informação 
sobre salário e área de formação académica, com os seguintes resultados: 


Formação 

n 

X 

s 

Humanas 

65 

28,75 

3,54 

Exatas 

12 

35,21 

5,46 

Biológicas 

8 

43,90 

4,93 


Aqui, n. indica a frequência, x o salário médio, es o desvio padrão amostrai. Teste a 
hipótese de que os salários médios nessas três áreas é o mesmo. 

1 7. Suspeita-se que quatro livros, escritos sob pseudónimo, são de um único autor. Uma 
pequena investigação iniciai selecionou amostras de páginas de cada um dos livros, 
contando-se o número de vezes que determinada construção sintática foi usada. Com os 
resultados abaixo, quais seriam as suas conclusões? 
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Livros 


1 

2 

3 

4 

28 

29 

26 

39 

31 

33 

24 

27 

17 

35 

22 

35 

25 

24 

19 

34 

26 

28 

23 

28 

22 


25 

34 

24 


29 

33 



30 



18. Proveque QM Ent = y^n.(y,. — y) 2 . 

19. Contrastes Múltiplos. Quando consideramos testar a hipótese /x. = fx. dentre as I médias, 
a região crítica de nível a será dada por 

\y i -y i \> t ai2 s eyj l l n i + l l >l j' (15.45) 


na qual encontra-se na Tabela V, com «-/graus de liberdade e tal queP(|t| > t a/2 ) = a. 
A aplicação desse método apresenta um problema, que tem sido bastante estudado e é 
conhecido como o problema de contrastes múltiplos. 

No nosso Exemplo 15.1, com quatro observações por grupo de idade, teremos de aplicar 


(15.45) para cada uma das m - 
= 0,05, 

por exemplo, teremos 


= 10 possíveis comparações de médias duas a duas. Se a 


P (|y t - yj | =£ t al2 S e 472) = 0,95, (15.46) 

e a probabilidade de que se verifiquem as dez condições (15.46), supondo independência, 
é (0,95) 10 = 0,598, e não 0,95. 

Portanto, aplicando-se o teste várias vezes, é provável que apareçam diferenças entre 
grupos, mesmo que elas não existam. 

Um método que resolve o problema é baseado na desigualdade de Bonferroni. Seja A ( o 
evento que consiste em rejeitar a hipótese /x. =/x J , sendo que essa hipótese é verdadeira. 
Suponha queP(A f ) =a. Se B for o evento tal que rejeitamos pelo menos uma das hipóte¬ 
ses, quando ela é verdadeira, então 

B = A, U A, U ... U A . 

12 m 

Segue-se da desigualdade de Bonferroni que 

m 

P(B) = P(A 1 UA 2 U...UA m )^J2 P ^= ma - 

1=1 
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Se indicarmos por a* a probabilidade do erro do tipo I global para os m contrastes, P(B ) 
=£ a*, logo tomamos o nível de cada contraste como 

a-oPbn. 

Para m grande, a pode sertão pequeno que não o encontramos em tabelas da distribui¬ 
ção t de Student. Pode-se usar a aproximação 


4v 



na qual v é o número de graus de liberdade do distribuição teZ a êo valor da N( 0,1) tal 
que P(Z > Zj = a. 

20. Construa uma ANOVA completa para os Exemplos 15.2 e 15.3. 

21 . Usando a proposta do problema 19 e os dados do Exemplo 15.3, teste H 0 : n 1 =n 2 = 
com a = 0,05. 

22. Teste a igualdade de variâncias para o Exemplo 15.3. 

23. Preparação para intervalo de predição, problema 24. As vendas diárias (Y) de um grande 
centro de compras seguem uma distribuição normal com média igual a $100 e desvio 
padrão igual a $20. 

(a) Qual o intervalo que contém 95% das vendas diárias? 

(b) SeX representar a média de amostras de vendas de nove dias, qual intervalo conterá 
95% das médias? 

(c) Compare e interprete os dois intervalos acima. 

Suponha, agora, que não se conheça nem a média nem o desvio padrão da popu¬ 
lação. Sorteou-se uma amostra de nove dias com as seguintes vendas diárias: 

157 162 135 136 154 178 180 127 128 

(d) Qual a melhor estimativa para a média populacional? 

(e) E para o desvio padrão populacional? 

(f) Construa um intervalo de confiança (IC) de 95% para a média populacional. 

(g) Construa um IC para a variância populacional. 

(h) Explique em poucas palavras o significado dos intervalos obtidos em (f) e (g). 

(i) Suponha, agora, que baseado nessa amostra você deva responder à pergunta (a). 
Como você não conhece a média e a variância populacional, você decide "emprestar" 
os respectivos valores da amostra e calcular o intervalo. Qual seria esse intervalo? Você 
tem alguma restrição a essa resposta? 

(j) Consultando um livro de Estatística, você encontrou a seguinte fórmula para prever 
uma possível observação futura, Y- 

IP(Í>; 7) = y±fyWl + l/H. 

Esse intervalo é chamado intervalo de predição (ou previsão). Construa o IP e inter¬ 
prete o resultado. 

(k) Compare com a resposta dado em (h), explicando a diferença entre eles. 
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24. Intervalo de predição. Vamos supor adotado o modelo (15.19) para a variável Fe dese¬ 
jamos prever uma observação futura Y Pelo modelo adotado, podemos escrever que 

Y r^ +E f 

que poderá ser estimado por y = y + e e por desconhecer e f substituímo-lo por seu 
valor esperado, que é zero. Logo, o estimador (ou predição) da futura observação passa 
a será média da amostra. Admitindo a observação futura como sendo independente das 
observações anteriores, podemos escrever 


Var(í» = 

e que será estimada por 


V ar(y) + V ar(e / ) = — + cr t 2 =o e 

1 n ‘ 


- + 1 
n 


Var (Y f ) = S] 



Usando a mesma argumentação para a construção de intervalos de confiança, podemos 
construir um IC para a futura observação, que chamaremos de intervalo de predição (IP), 
do seguinte modo: 


IP(F /; 1 ) = y±t^S Jl+I. 

V n 

25. Mostre que o IP para uma observação futura Y , do r-ésimo grupo, pode ser escrito como: 

iP (iV; Y) = y,±r_s e Ji7J 

e calcule o IP para uma pessoa de 40 anos no Exemplo 15.1. Compare com o respectivo 
IC para a média do mesmo grupo. 

26. Conduziu-se um estudo-piloto para determinar qual o intervalo de normalidade para o 
peso de crianças com dez anos de idade. Usando-se uma amostra de 50 crianças, en¬ 
controu-se o peso X de cada uma delas, com os seguintes resultados: Sx = 1.639,5 kg e 
Sx 2 = 56.950,33 kg 2 . Com esses dados, quais seriam os limites de um intervalo para que 
crianças com dez anos de idade fossem consideradas como tendo peso normal? 

27. Prove a equivalência das expressões (15.33) e (4.13). 









Capítulo 1 6 


Regressão Linear Simples 


16.1 Introdução 

No Capítulo 8 introduzimos o conceito de regressão para duas v.a. quantitativas, X 
e Y. Vimos que a esperança condicional de Y, dado que X = x, por exemplo, denotada 
por E(y |x), é uma função de x, ou seja, 

E(Y\x) =/i(x). (16.1) 

Em (8.27) definimos precisamente essa função. Uma definição similar vale para 
E(X |y), que será uma função de y. Estamos considerando aqui o caso em que X e Y são 
definidas sobre uma mesma população P. Por exemplo, X pode ser a idade e Y o tempo 
de reação ao estímulo, no Exemplo 15.1. Nesse exemplo, a análise sugeriu a existên¬ 
cia de uma relação mais forte entre as duas variáveis, e a modelamos por 

y,j = /I, + e,j, i = 1, ..., 5, j = 1, ..., 4, (16.2) 

onde n, é a média do grupo de idade /'. Podemos pensar que o fator idade determina 
cinco subpopulações (ou estratos) em P e de lá escolhemos cinco amostras aleatórias 
de tamanhos n, = 4, i = 1, ..., 5. 

Em (16.1), ju(x) pode ser qualquer função de x; veja o Exemplo 8.21. Um caso 
simples de interesse é aquele em que X e f têm distribuição conjunta normal 
bidimensional. Nesse caso, /i(x) e /i(y) são, de fato, funções lineares. Veja a seção 8.8. 

Continuando com o Exemplo 15.1, tanto X (idade) como Y (tempo de resposta ao 
estímulo) são v.a. contínuas, e podemos pensar em introduzir um modelo alternativo 
para y y , dada a relação entre Xef. Observando as médias de Y, segundo os grupos de 
idades, ou seja, E(/lx), percebemos que estas aumentam conforme as pessoas enve¬ 
lhecem. A Figura 16.1 mostra os dados observados, onde notamos uma tendência 
crescente, bem como os valores repetidos de Y para cada nível de idade x. 

Um modelo razoável para E(/|x) pode ser 

E (Y|x) = n(x) = a + j8x, 

ou seja, o tempo médio de reação é uma função linear da idade. 


(16.3) 
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Figura 16.1 : Gráfico de dispersão de idade e rea¬ 
ção ao estímulo, com reta ajustada. 



A forma da função /u(x) deve ser definida pelo pesquisador, em função do grau de 
conhecimento teórico que ele tem do fenômeno sob estudo. Um modelo alternativo a 
(16.2) seria, então, 

y tJ = H(x,) + e.„ (16.4) 

com E(Y |x.) = juiXj) =a + /3x, i = 1, 2,..., 5. Entretanto, a forma usual de escrever o modelo é 

y ( . = £í(x) + e ( , (16.5) 

ondey^. indica o tempo de reação do /-ésimo indivíduo com x anos de idade, i = 1, 2, ..., n, e n 
é o número total de observações. Teremos, então, com essa notação, valores repetidos para X, 
por exemplo, x : = ... =x 4 = 20. Convém reforçar a idéia que estamos propondo um modelo de 
comportamento para as médias das subpopulações, logo teremos de estimar os parâmetros 
envolvidos na função ju(x), baseados numa amostra de n = 20 observações, no exemplo. 

No caso de (16.3) o modelo pode ser escrito como 

y. = E (Y | x ( ) +e j = a + j5x i + e ( , i = 1, 2, ..., n, (16.6) 

devendo-se encontrar os valores mais prováveis para a e /3, segundo algum critério, a 
partir de n observações de pares de valores de (X, Y). 

Antes de prosseguirmos, seria conveniente interpretar os parâmetros envolvidos no mo¬ 
delo (16.5). Sabemos que a, o intercepto, representa o ponto onde a reta corta o eixo das 
ordenadas, e /3, o coeficiente angular, representa o quanto varia a média de Y para um aumento 
de uma unidade da variável X. Esses parâmetros estão representados na Figura 16.2. 


Figura 16.2: Representação do modelo E (Y |x) =a + |3x. 
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Voltando ao nosso exemplo, onde X é a idade et o tempo de reação, p representa 
o acréscimo no tempo médio de reação para cada ano de envelhecimento das pessoas. 
Aqui a representa o tempo de reação para a idade zero (recém-nascido), o que é uma 
inadequação do modelo. 

Observação. Chamamos (16.3) de modelo linear, pois este representa uma reta. Todavia, 
em casos mais gerais, o termo linear refere-se ao modo como os parâmetros entram 
no modelo, ou seja, de forma linear. Por exemplo, o modelo 

E(Y\x) = a + j8x + yx 2 , 

embora graficamente represente uma parábola, é modelo linear em a, p e y. Por 
outro lado, 


E(Y\x) = cee» 1 


(16.7) 


não é um modelo linear em cc e p. 

Determinados modelos não-lineares podem ser transformados em lineares, por 
meio de transformações das variáveis. Assim, tomando-se o logaritmo (de base e) 
em (16.7) obtemos 


YnE (T|x) = £n[d) + px = cc’+ px, 


que é linear em a' e p. 

Ao lado de um tratamento formal para estudar o modelo (16.6), devemos usar as 
técnicas de análise de dados que estudamos na Parte 1 do livro. Em particular, pode¬ 
mos fazer diversos tipos de gráficos antes que o modelo seja ajustado, durante o 
processo de ajuste e, finalmente, depois que o modelo foi ajustado. 

A Figura 16.1 é um exemplo de um gráfico que deve ser feito antes de selecionar 
o modelo. Ou seja, temos um gráfico de dispersão entre as variáveis X (idade) e Y 
(tempo de reação ao estímulo). Esse tipo de diagrama permite ver qual o tipo de 
relação existente entre as variáveis, se há valores atípicos, se há valores repetidos 
(como no Exemplo 15.1), se a variabilidade de Y está aumentando ou não com X etc. 
Nesse mesmo exemplo, se decidirmos incluir a variável "acuidade visual" no mode¬ 
lo, teríamos duas variáveis explicativas e poderíamos fazer, por exemplo, gráficos 
de dispersão entre a resposta e cada variável explicativa e entre as duas variáveis 
explicativas. Este último nos daria uma idéia do planejamento envolvido, ou seja, se 
os pares de valores das variáveis explicativas estão cobrindo o plano (x ; , x 2 ), se há 
grupos de pontos etc. 

Exemplos de gráficos depois do ajuste serão vistos na seção 16.5, quando fizermos 
uma análise dos resíduos, para avaliar a adequação do modelo aos dados. Gráficos 
durante o ajuste são utilizados quando estudarmos a possibilidade de considerar 
vários modelos alternativos para o problema em questão. Esse tópico não será ex¬ 
plorado com detalhes no livro. 
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16.2 Estimação dos Parâmetros 

* 

Como no capítulo anterior, iremos encontrar os estimadores de mínimos quadra¬ 
dos para os parâmetros do modelo linear (16.6), mas o mesmo desenvolvimento pode 
ser aplicado em modelos mais complexos. Será necessário ainda introduzir algumas 
suposições para as v.a. envolvidas. A primeira delas é que a variável X é por hipótese 
controlada e não está sujeita a variações aleatórias. Dizemos que X é uma variável fixa 
(ou sem erro ou determinística). Segundo, para dado valor x deX, os erros distribuem-se 
ao redor da média a + px com média zero, isto é, 

E (e, |x) = 0. (16.8) 

Em terceiro lugar, e pela mesma razão apresentada no capítulo anterior, devemos 
supor que os erros tenham a mesma variabilidade em torno dos níveis de X, ou seja, 

Var(e,|x) = a]. (16.9) 

E em quarto lugar, introduziremos a restrição de que os erros sejam não-correlacionados. 

Colhida uma amostra de n indivíduos, teremos n pares de valores (x ; , y;), i = 1, ..., 
n, que devem satisfazer ao modelo (16.6), isto é, 

y, = a + px, + e„ i = 1, ..., n. (16.10) 

Temos, então, n equações e n + 2 incógnitas (a, p, e lf e 2 , ..., e„). Precisamos 
introduzir um critério que permita encontrar a e p. Como no capítulo anterior, vamos 
adotar o critério que consiste em encontrar os valores de a e p que minimizam a 
soma dos quadrados dos erros, dados por 

e, = y, - [a + px,), i = 1. n. (16.11) 

Obtemos, então, a quantidade de informação perdida pelo modelo ou soma dos 
quadrados dos erros (ou desvios) 

SQ(a, p)=Íe 2 =t {y f - (a + px,)} 2 . (16.12) 

i =i ' / =i 

Para cada valor de a e /3 teremos um resultado para essa soma de quadrados, e a 
solução de mínimos quadrados (MQ) é aquela que torna essa soma mínima. Temos, 
então, o problema de encontrar o mínimo de uma função de duas variáveis, a e /3, no 
caso (ver Morettin et al., 2005). Derivando em relação a a e /3 e igualando a zero, 
observamos que as soluções a e fi devem satisfazer 

n n 

nâ + $Y J x i =Ey,, 

i =1 1 i =1 
n n n 

âZ X , + p E X ■ = E X,y,, 

/=1 /= 1 /= 1 


(16.13) 
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as quais produzem as soluções 

â = y - jdx, 

a _ Ihw - m (16.14) 

n x 2 ' 

Substituindo em (16.3), teremos o estimador para a média /u(x), dado por 

ju(x,) = ã + foi, /' = 1.n, (16.15) 

que iremos indicar por 

y f = â + /br ,, (16.16) 

ou, ainda, por 

9i = 7- Í5x+j5x j =y + p(x l x). (16.17) 

Exemplo 16.1, Voltemos ao Exemplo 15.1 e vamos ajustar o modelo (16.10), com: 
y - tempo de reação do /-ésimo indivíduo, 
x ( : idade do /-ésimo indivíduo, 
e ( : desvio, / = 1, 2, ..., 20. 

Da Tabela 16.1 obtemos as informações: 

n = 20, ZYí = 2.150, J>, = 600, 5>,y, = 65.400, 

y = 107,50, x = 30, = 19.000. 

Substituindo em (16.14) obtemos 

n _ 65.400 - (20)(30)(107,50) _ 0 on 
P 19.000 - (20)(30) 2 

a = 107,50 - (0,90)(30) = 80,50, 
o que nos dá o modelo ajustado 

y, = 80,50 + 0,90x„ / = 1, 2.20. (16.18) 

Com esse modelo podemos prever, por exemplo, o tempo médio de reação para 
pessoas de 20 anos, que será indicado por y (20) e determinado por 

y (20) = 80,50 + (0,90)(20) = 98,50. 

De modo análogo, os tempos médios para as idades 25, 30, 35 e 40 serão, respec¬ 
tivamente, estimados por: 103,00, 107,50, 112,00, e 116,50. Esses valores são muito 
próximos daqueles encontrados na seção 15.3, e a vantagem desse modelo sobre aquele 
é a possibilidade de estimar o tempo de reação médio para um grupo de idades não 
observado. Suponhamos, por exemplo, que se deseja estimar o tempo médio para o 
grupo de pessoas com 33 anos; este será dado por 

y (33) = 80,50 + (0,90)(33) = 110,20. 

Na Figura 16.1 aparecem representados os dados observados, bem como a reta 
ajustada. Podemos observar que o modelo parece ser adequado, não apresentando 
nenhum ponto com desvio exagerado. 
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1. Usando os dados do Exemplo 15.1: 

(a) Encontre a reta de mínimos quadrados z,- = a + y8x (/ onde z mede a acuidade visual e 
X, a idade. 

(b) Interprete o significado de ae p nesse problema. 

(c) Para cada indivíduo, encontre o desvio ê, = z, - z); existe algum com valor 
muito exagerado? 

2. A tabela abaixo indica o valor y do aluguel e a idade X de cinco casas. 

(a) Encontre a reta de M Q, supondo a relação E(y |x) = a + px. 

(b) Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado 
é razoável? 

(c) Qual o significado do coeficiente angular nesse caso? 

(d) E do coeficiente linear? 


X 

10 

13 

5 

7 

20 

y 

4 

3 

6 

5 

2 


3. Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um 
antibiótico. Dez amostras de 50 gramas cada foram guardadas a diferentes temperaturas, 
e após 15 dias mediu-se a potência. Os resultados estão no quadro abaixo. 

(a) Faça a representação gráfica dos dados. 

(b) Ajuste a reta de M Q, da potência como função da temperatura. 

(c) O que você acha desse modelo? 

(d) A que temperatura a potência média seria nula? 


Temperatura 

30° 

50° 

70° 

90° 

Potência 

38 43 

32 26 33 

19 27 23 

14 21 


4. Ainda usando os dados do exemplo numérico 15.1, investigue o ajuste da reta de M Q na 
variável tempo de reação como função da acuidade visual. 

1Ó.3 Avaliação do Modelo 

* 

Nesta seção e nas seguintes estudaremos várias formas de avaliar se o modelo 
linear postulado é adequado ou não, dadas as suposições que fizemos sobre ele. 

16.3.1 Estimador de a 2 e 

Como no capítulo anterior, para julgar a vantagem da adoção de um modelo mais 
complexo (linear ou outro qualquer), vamos usar a estratégia de compará-lo com o 
modelo mais simples, que é aquele discutido na seção 15.2, ou seja, 

y, = A* + e,. (16.19) 

A vantagem será sempre medida por meio da diminuição dos erros de previsão, ou 
ainda, da variância residual S e 2 . Para o modelo ajustado (16.16), cada resíduo é dado por 

ê, =y, - ?i = y, - â - px r (16.20) 
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Como vimos na seção 16.1, vários gráficos envolvendo esses resíduos podem ser feitos para 
avaliar se eles são "bons representantes" dos verdadeiros e j desconhecidos, no sentido de que as 
suposições feitas sobre estes estão satisfeitas. Esses gráficos serão estudados na seção 16.5. 

Quando estes resíduos forem pequenos, temos uma indicação de que o modelo está produ¬ 
zindo bons resultados. Para julgarmos se o resíduo é pequeno ou não, devemos compará-lo 
com os resíduos do modelo alternativo, dados pory. - y. Da dificuldade de compará-los indivi¬ 
dualmente, preferimos trabalhar com as respectivas somas de resíduos quadráticos, dadas por 

SQTot = V (y. - y) 2 (16.21) 

/ =1 

6 

SQRes = J ê] = £(y, - y.) 2 . (16.22) 

i=i / =i 

Exemplo 16.1. (continuação) Na quinta coluna da Tabela 16.1 aparecem os resíduos 

ê, = y, - y = y, - (80,50 + 0,90x ( ) 
que elevados ao quadrado e somados produzirão 

SQRes = 563,00. 

Sabemos que SQTot = 1.373,00, o que mostra uma sensível redução de 810 unidades. 
M ais ainda, a comparação da quinta coluna da Tabela 16.1 com a coluna e(3) da Tabela 15.4 
mostra o melhor comportamento dos resíduos do modelo de regressão (16.18). 


Tabela 16.1 : Resíduos para o modelo (16.18). 


1 

Variáveis 

Resíduos 

Tempo de 
Reação 

Sexo 

Idade 

y,-9, 

1 

96 

H 

20 

-2,5 

2 

92 

M 

20 

-6,5 

3 

106 

H 

20 

7,5 

4 

100 

M 

20 

1,5 

5 

98 

M 

25 

-5,0 

6 

104 

H 

25 

1,0 

7 

110 

H 

25 

7,0 

8 

101 

M 

25 

-2,0 

9 

116 

M 

30 

8,5 

10 

106 

H 

30 

-1,5 

11 

109 

H 

30 

1,5 

12 

100 

M 

30 

-7,5 

13 

112 

M 

35 

0,0 

14 

105 

M 

35 

-7,0 

15 

118 

H 

35 

6,0 

16 

108 

H 

35 

-4,0 

17 

113 

M 

40 

-4,5 

18 

112 

M 

40 

-5,5 

19 

127 

H 

40 

9,5 

20 

117 

H 

40 

-0,5 

SQRes 




563 

Se 2 




31,28 

Se 




5,59 

2S e 




11,18 
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No entanto, a comparação direta dessas somas de quadrados não nos parece justa, 
pois o modelo (16.18) tem mais parâmetros do que o modelo (16.19). Vejamos, então, 
como comparar as variâncias residuais. Para o modelo simples (16.19) o estimador 
não-viesado de <r e 2 é 

If (16.23) 

Também vimos que para o modelo (16.2), com I níveis ou subpopulações, o esti¬ 
mado da variância residual era 

c 2 _ SQDen _ SQRes (16.24) 

n - I n - I ' 

e / também denota o número de parâmetros desconhecidos do modelo (as médias pç). 
Portanto, de modo geral, perde-se um grau de liberdade para cada parâmetro envolvido 
no modelo e é natural definir o estimador de <r e 2 num modelo de regressão como sendo 

ç 2 _ SQRes (16.25) 

e n - p ' 

onde pé o número de parâmetros do modelo. No caso particular da regressão linear 
simples, p = 2 e 

ri_ SQRes (16.26) 

n - 2 

será um estimador não-viesado de o], isto é, E(S$ = o]. Veja o Problema 32. 

Exemplo 16.2, Continuando o exemplo anterior, obteremos 

S 2 = 1.373/19 = 72,26, S = 8,50 
e 

S e 2 = 563/18 = 31,28, S e = 5,59, 

números que sugerem uma diminuição significativa nos resíduos. Observe que, pas¬ 
sando de um modelo com um parâmetro para outro com dois, há uma redução de 813 
unidades na soma de quadrados residuais. Ou seja, perdendo um grau de liberdade, 
reduziu-se a soma dos resíduos quadráticos em 810 unidades, o que é mais uma evi¬ 
dência da vantagem de adoção do segundo modelo. 

1Ó.3.2 Decomposição da Soma de Quadrados 

Ao passarmos do modelo simples para o modelo de regressão linear, vimos que a 
redução da soma de quadrados é dada por SQTot - SQRes. Esse lucro é devido à adoção 
do segundo modelo e será indicado por SQReg, significando a soma dos quadrados 
devida á regressão. Segue-se que 

SQReg = SQTot - SQRes, 


(16.27) 
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ou seja, 

SQTot = SQReg + SQRes. (16.28) 

Observando a Figura 16.3, notamos que vale a seguinte relação: 

y\ - 7 = (y< - 9i) + (y, - 7) = ê, + (7/ - 7)- (16.29) 

Em palavras, o desvio de uma observação em relação à média pode ser decomposto 
como o desvio da observação em relação ao valor ajustado pela regressão, mais o 
desvio do valor ajustado em relação à média. 


Figura 16.3: Representação gráfica dos diversos desvios. 



Elevando-se ao quadrado ambos os membros da igualdade (16.29), tomando-se a soma 
e observando-se que a soma do duplo produto se anula (veja o Problema 31), obtemos 

i(y f -y ) 2 = í(y ( -y) 2 +i ê /- (16.30) 

/=1 /=1 /=1 

OU 

SQTot = V(y, - y) 2 + SQRes, (16.31) 

/ =1 

do que deduzimos que 

SQReg = f j (y i - y) 2 . (16.32) 

/' =1 

De (16.17) obtemos que 

9i - 7 = - x), 

portanto, podemos escrever 

SQReg =p 2 f j (x j - x) 2 . (16.33) 

/ =i 

Daqui se pode observar que, quanto maior o valor de /?, maior será a redução da 
soma dos quadrados dos resíduos. 
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16.3.3 Tabela de Análise de Variância 

Do mesmo modo como foi feito na seção 15.2, podemos resumir as informações 
anteriores numa única tabela A NOVA, ilustrada na Tabela 16.2. 


Tabela 16.2: Tabela ANOVA para modelo de regressão. 


F.V. 

g.l. 

SQ 

QM 

F 

Regressão 

Resíduo 

1 

n-2 

SQReg 

SQRes 

SQReg = QMReg 
SQRes/(n-2) = S 2 

QMReg/S 2 

Total 

n- 1 

SQTot 

SQTot/(n-1) = S 2 



Também podemos medir o lucro relativo que se ganha ao introduzir o modelo, 
usando a estatística 


r2 = SQReg 
SQTot ' 


(16.34) 


definida anteriormente. A estatística F será discutida na seção 16.4. 


Exemplo 16.3. Dos cálculos que nos levaram ao modelo (16.18), podemos construir a 
Tabela 16.3. Temos que 


R 2 = 


810 

1.373 


59%. 


Tabela 16.3: Tabela ANOVA para o modelo (16.18). 


F.V. 

g.l. 

SQ 

QM 

F 

Regressão 

1 

810 

810 

25,90 

Resíduo 

18 

563 

31,28 


Total 

19 

1.373 

72,26 



O modelo proposto diminui a variância residual em mais da metade e explica 59% 
da variabilidade total. Verificamos, então, que é vantajosa a adoção do modelo linear 
(16.18) para explicar o tempo médio de reação ao estímulo, em função da idade. 

A estratégia adotada para verificar se compensa ou não utilizar o modelo y = a + px + e 
é observar a redução no resíduo quando comparado com o modelo y = n + e. Se a 
redução for muito pequena, os dois modelos serão praticamente equivalentes, e isso 
ocorre quando a inclinação (5 for zero ou muito pequena, não compensando usar um 
modelo mais complexo. Estaremos, pois, interessados em testar a hipótese 

H 0 : j8 = 0, (16.35) 

o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros. Esse assunto 
será objeto da próxima seção. A Figura 16.4 ilustra as duas situações que podem ocorrer. 
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Na Figura 16.4 (a) temos o caso em que claramente a variável auxiliar ajuda a prever a 
variável resposta. Na situação da Figura 16.4 (b) teremos dúvidas se vale a pena ou não 
introduzir um modelo mais complexo, ganhando muito pouco em termos de explicação. 


Figura 16.4; Relas ajustadas a dois conjuntos de dados, (a) x explica y; (b) x não explica y. 



Para a avaliação final do modelo devemos investigar com mais cuidado o compor¬ 
tamento dos resíduos, o que será feito na seção 16.5. 

H r^TTPT^_ 

5. Usando os resultados do Problema 1, construa a tabela ANOVA para o modelo z = â + /3x, 
encontrado naquele problema. 

(a) Qual a estimativa 5 2 ? E S 2 ? 

(b) Você acha que a redução nos resíduos foi grande? 

(c) Qual o valor de R 2 ? Interprete esse número. 

6. Um estudo sobre duração de certas operações está investigando o tempo requerido (em 
segundos) para acondicionar objetos e o volume (em dm 3 ) que eles ocupam. Uma amostra 
foi observada e obtiveram-se os seguintes resultados: 


Tempo 

10,8 

14,4 

19,6 

18,0 

8,4 

15,2 

11,0 

13,3 

23,1 

Volume 

20,39 

24,92 

34,84 

31,72 

13,59 

30,87 

17,84 

23,22 

39,65 


(a) Faça o diagrama de dispersão dos dados. 

(b) Estime a reta de regressão do tempo de operação em função do volume. 

(c) Construa a tabela ANOVA para o modelo. 

(d) Qual o valor de S 2 ? É pequeno quando comparado com S 2 ? 

(e) Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento? 

7. Construa a tabela ANOVA para o Problema 2 e interprete os resultados. 

8. Construa a tabela ANOVA com os dados do Problema 3. 

9. Idem para o Problema 4. 























460 


CAPÍTULO 16 — REGRESSÃO LINEAR SIMPLES 


16.4 Propriedades dos Estimadores 

Iremos agora estudar as propriedades amostrais dos estimadores ã e fi, e para isso é 
conveniente voltar ao modelo e às suposições adotadas para a variável aleatória Y 
sob investigação. Lembremos que a variável X é suposta controlada, fixa, e para 
cada valor x de X teremos associada uma distribuição de probabilidades para Y, como 
ilustra a Figura 16.5 (a), onde supomos que a dispersão é a mesma para cada nível 
da variável X. A Figura 16.5 (b) ilustra o caso que será considerado aqui, em que 
estas distribuições condicionais são normais, com a mesma variância. Note que E[Y\x) 
é linear, como estamos considerando neste capítulo. 

Formalmente, o modelo 

Yj = E (Y|x,) + e, = a + f5x t + e ( , / = 1, ..., n 

deve satisfazer as seguintes suposições: 

(i) Para cada valor de x., o erro e i tem média zero e variância constante <j e 2 ; 

(ii) Se i ¥= j, Cov(e,, e t ) = 0, isto é, para duas observações distintas, os erros são não- 
correl acionados. 

Segue-se que 

E (Y.|x.) = a + fix. e Var(y. |x.) = <r e 2 , 
e ainda que Y, e Y t são não-correlacionados, para / ^ j. 


Figura 16.5: (a) médias alinhadas, distribuições com a 
mesma variância; 

(b) médias alinhadas, distribuições normais 
com a mesma variância. 
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1Ó.4.1 Média e Variância dos Estimadores 

Nesta seção vamos obter a média e a variância dos estimadores a e /?, dados em (16.14). 

Proposição 16.1. Para o estimador /? temos 

f(j3)=A (16.36) 

Var(/3) = (16.37) 

h=i(x j - xY 


Prova. Inicialmente, vamos escrever /? de um modo mais conveniente (veja o Problema 30): 
s _ E"=i(x, - x)(y, - y ) _ E"=i(x, - x)y, - y E"=i(x, - x) 


Ei=l(Xi - x ) 2 


E" = i(x, - X ) 2 


_ E;=l(x, -x)y / _ Y (X/ — X) y _Y w/ y 

^—' n ' j v—' n i ^ j i i i 

E/=l(X; - X ) 2 ,= 1 Ef=lU, - X ) 2 

onde estamos usando a notação y (maiúscula) e x (minúscula) para diferenciar o fato 
de que a primeira está sendo considerada aleatória e a segunda, fixa; e 


i/i/. = ■ 


x, - x 


E^=0. 


E"=i(x, - X ) 2 fri 

Observe que estamos usando o fato de E”=i(x. -x) = 0 e que 

E w , x , = i-X w,(x, - x“) 

1=1 1=1 1=1 1=1 

=í v , (x -- ^ (V »> = 1 

Í=1 E/=i(x, - X ) 2 

Usando propriedades da esperança e variância de somas de v.a. (veja o Capítulo 8), 
podemos escrever 

EU3)=E±w? i )=Íw i E(Y i ) 

1=1 1=1 

n n n 

= E W,(a + px,) = «E + £E = A 

i=i í=i r=i 

o que mostra que o estimador é não-viesado. Para a variância, 

V ar(yS) =Var(£iv,y ( ) = £iv 2 Var(y,), 

1=1 1=1 

pois as observações são não-correlacionadas, e, portanto, 


Var(^) =E W j^e = ff eE 
e o resultado segue. 


i e 

i=l i=l 


X; ~ X 


_ _ El =i(x, - x ) 2 

= l(x, - X ) 2 ) e [E" = i(x. - X) 2 ] 2 ' 


= a 2 
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Proposição 16.2. Para o estimador à temos: 

E (â) = a, 

Var( â) = a ] ^ i=lX ' ■ 
nZi=i(x, - xY 


(16.38) 

(16.39) 


Prova, Precisaremos dos seguintes resultados (Problema 33): 

Cov(y, j8) = 0, (16.40) 

V(x ( .-x) 2 =£x?-nx 2 . (16.41) 

1=1 /=1 

Como 

y = wi^ = w% ia+ i t, ' +e ' ) 

■, " 

= cr + /3x + —Ee f , 
n i= i 

temos que 

1 n 

£ (y) = a + Bx + — (e ) = a + Bx, 
n =i 

dado que x é supostamente fixa e não uma v.a. Também, 

Var(y)=-^ 2 Ívar( eí )=-^. 

n i= i n 

Temos, então, que 

E (â) = E (y - px) = a + fix - jix = a, 
e 

Var(â) = Var(y- /3x) = Var(y) +Var(/3x) - 2Cov(y, j8x) 

= Var(y) +x 2 Var(/3) - 2xCov(y, ^) 
e usando os diversos resultados obtidos acima, obtemos (16.39). 

1Ó.4.2 Distribuições Amostrais dos Estimadores dos Parâmetros 

Para completar o estudo das propriedades dos estimadores, vamos introduzir uma 
terceira suposição: 

(iii) Os erros e j são v.a. com distribuição normal, isto é, 

e, ~ A/(0; a]), (16.42) 


o que implica 


y ~ N(a + /5x i ; o]). 


( 16 . 43 ) 
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Como p e â são combinações lineares de v.a. normais e independentes, temos o 
seguinte resultado: 

Proposição 16.3 Os estimadores â e p têm ambos distribuição normal, com médias e 
variâncias dadas pelas Proposições 16.1 e 16.2, isto é, 



(16.44) 


(16.45) 


Os resultados acima permitem concluir que 


V£(x, - x) 2 ~ N (0, 1), 

M2 


(16.46) 


a^a_ In £(x, - xP _ W ( 0| p (16.47) 

v x*: 

16.4.3 Intervalos de Confiança para ae 

Substituindo o e por seu estimador S e em (16.46) e (16.47), sabemos que as estatís¬ 
ticas resultantes terão distribuição t de Student, com (n - 2) graus de liberdade, o que 
permitirá construir intervalos de confiança para os parâmetros. 

Proposição 16.4. As estatísticas 


t(p) = VS(x ( .- x ) 2 


(16.48) 


e 



(16.49) 


têm distribuição t de Student com (n - 2) graus de liberdade. 

Esse resultado, combinado com os procedimentos de construção de intervalos de 
confiança já estudados, nos leva aos seguintes intervalos para a e p, com /denotando 
o coeficiente de confiança e tyn - 2) denotando o valor obtido da Tabela V, com (n - 2) 
graus de liberdade: 



(16.50) 


IC(j8; /) =P± t Y (n - 2)S ( 



(16.51) 
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Exemplo 16.4, Da tabela A NOVA do Exemplo 16.3 podemos retirar as informações 
necessárias para construir intervalos de confiança para a e /?. Temos que E* 2 = 19.000, 
E(x, - *) 2 = 1.000, e x = 30. 

Temos, também, S e 2 = 31,28 e, portanto, S e = 5,59. Se y= 0,95, obtemos t 095 (18) = 2,101. 
Os intervalos são dados por: 

IC(a; 0,95) = 80,50 ± (2,101)(5,59) ^ âoO)(2 0) = 80,50 ± U ' 45 ' 

IC()3; 0,95) = 0,90 ± (2,101)(5,59) V 1/1.000 
= 0,90 ± 0,30. 

Ou seja, 

IC(a; 0,95) = [69,05; 91,95], 

IC[j8; 0,95] = [0,60; 1,20]. 

Este último resultado é mais uma evidência de que /3 0, o que reforça conclu¬ 

sões anteriores. 

Os intervalos de confiança (16.50) e (16.51) podem ser utilizados para testar 
hipóteses do tipo 

H 0 : a = a 0 , 

H 0 -P = Po- 

Em particular, temos o resultado: 

Proposição 16.5 A estatística para testar H 0 : a - 0 é 

m - # (16.52) 

S e v E*y 

e a estatística para testar H 0 : p = 0 é 

t(P) = | VE(x ; - x) 2 , (16.53) 

e 

cada uma tendo distribuição t de Student com (n - 2) graus de liberdade. 

Observe que 

mY= fi^Oç-x) 2 

^ e 

e usando o resultado (16.33) podemos escrever 

[tm = (16.54) 

que é a estatística F que aparece na tabela A NOVA. A ssim, para testar a hipótese H 0 : p = 0, 
pode-se usar a estatística (16.54), que segue uma distribuição F(l, n - 2). 
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Exemplo 16.5. Para testar separadamente as hipóteses acima, os valores das estatísti¬ 
cas correspondentes serão: 



t(j8) = (0,90/5,59) VlÕÕÕ = 5,09, 


os quais devem ser comparados com 2,101, que é o valor crítico de t(18), no nível 
de significância 5%. Vemos que em ambos os casos rejeitamos as hipóteses de que 
os parâmetros sejam iguais a zero. Comparando o resultado de t(j8) com o valor F da 
tabela A NOVA, constatamos que t 2 (p) = 25,90 = F, de acordo com o apresentado 
acima. Algumas vezes, para indicar a significância das estatísticas, a reta ajustada é 
escrita do seguinte modo: 


y = 80,50 + 0,90x, 
(14,77) (5,09) 


onde entre parênteses aparece o valor de t, para indicar com que intensidade o parâmetro 
pode ser considerado distinto de zero. 


1Ó.4.4 Intervalo de Confiança para /i[z) e Intervalo de Predição 


O modelo linear (16.6), estudado até agora, será utilizado freqüentemente para 
fazer previsões da variável resposta (y) para algum nível da variável de controle (x). 
Usando o enunciado do Exemplo 16.1, poderíamos estar interessados em saber qual o 
tempo de reação aos 28 anos. É importante estabelecer se queremos estimar o tempo 
médio para o grupo etário de 28 anos ou o tempo de reação provável para uma pessoa 
de 28 anos. Veremos que a estimação pontual é a mesma nos dois casos, porém os 
intervalos de "confiança" serão distintos. Para entender bem as diferenças sugerimos 
recordar as soluções aos exercícios 23, 24 e 25 do Capítulo 15. 

Do modelo (16.3) e do exposto até agora, temos o seguinte resultado. 

Proposição 16.6. A distribuição amostrai do estimador (16.15) é dada por 


Aí(x,) = y= â + px, ~ N{a + j&r„ Var(y,)) 


(16.55) 


onde 


L n V(x,-xTj 

Prova, Das proposições 16.1 e 16.2 vem: 


VariuQ) = Var(y) = c\ — + J* 1 


(16.56) 


E (iu(x)) = E(ã) + E (j8)x. = cc + f5x i = /u(x) 


o que demonstra a primeira parte da proposição. De (16.17) temos 

9, = 7 + Pfci ~ *). 
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portanto 

Var(y) = Var(y) + (x, - x) 2 Var(/3) + 2(x, - x) Cov(y, p), 
mas de (16.40), Cov(y, /3) = 0, e de (16.37) vem 


v/ i~\ c\ , / —ol ,ri (X; - x) 2 

Var(y) = — + (x, - x) 2 --— =o] — + _L-í-, 

n Z(x,-x) 2 Ln V(x,.-x) 2 J 

o que conclui a prova. 

Com a proposição acima e substituindo <r e 2 por seu estimador S 2 é fácil verificar 
que o Intervalo de Confiança para /u(x) será dado por: 


ICCu(x); y) = y ± t (n - 2) 5 e /1 + (x '' X ~ )2 (16.57) 

Vejamos agora como construir um intervalo de predição para uma futura observa¬ 
ção. Imitando a proposta do Problema 15.24, uma futura observação para um dado 
nível x f é dada por 

Y,(x) = n(x f ) + £, 

e o estimador será 

Y f = ?f+ £ f = 9f 


onde substituímos o valor desconhecido e f pelo seu valor esperado que é zero. 
Da expressão anterior, calculamos: 


Var(y f ) = Var(y f ) +Var(e f ) = cr; 


i + 


(*1 - X ) ! 


ou seja, 


Var(f f ) = cr 2 


1 + — +. 


n V(x,-x) 2 J 
(x, - x) 2 


+ cl , 


(16.58) 


n Z( x i - x ) 2 

Substituindo <t 2 pelo seu estimador S 2 , teremos um estimador da variância, e 
analogamente o intervalo de predição abaixo: 

(x f -x) 2 (16.59) 


IP(Y f ;y)=y f ±t 7 S e Jl+4 + 




Exemplo 16.6. Qual o tempo de reação aos 28 anos? 

A estimativa pontual é dada por: 

y(28) = 80,5 + 0,9(28) = 105,7. 

Considerando como resposta adequada o tempo de reação médio do grupo de 28 
anos, podemos escrever o Intervalo de Confiança para a média, ou seja: 
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IC(ju(28); 0,95) = 105,7 ± (2,101)(5,59) / — + (28 ~ 30)2 = 

^ 20 1000 

= 105,7 ± 2,7 = ] 103,0; 108,4[. 

Se quiséssemos saber dentro de que intervalo 95% das futuras observações iriam 
estar, construiríamos o Intervalo de Predição: 


I 


_L + (28 - 30) 2 
20 1000 


\P(Y f ; 0,95) = 105,7 ± (2,101)(5,59) l + 


= 105,7 ± 12,1 = ]93,6; 117,8[. 


_ 

10. Usando a tabela ANOVA, construída no Problema 5: 

(a) Construa o IC(J3; 95%). 

(b) Construa o IC(a; 90%). 

(c) Use a estatística F para testar a hipótese H Q : /3 - 0. 

(d) Construa o IC para a acuidade visual média do grupo etário de 28 anos. 

(e) E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos? 

11. Com as informações do Exemplo 15.1, e a ANOVA construída no Problema 9, você diria 
que a acuidade visual ajuda a prever o tempo de reação dos indivíduos? Que estatística 
você usou para justificar seu argumento e por quê? 

1 2. Investigando a relação entre a quantidade de fertilizante usado (x) e a produção de soja 


(y) numa estação experimental com 20 canteiros, obteve-se a equação de M Q : 

y = 15,00 + 2,83x. 

(3,22) (1,65) 

Com esses resultados você diria que a quantidade de fertilizante influi na produção? Porquê? 

16.5 Análise de Resíduos 

Para verificar se um modelo é adequado, temos que investigar se as suposições feitas 
para o desenvolvimento do modelo estão satisfeitas. Para tanto, estudamos o compor¬ 
tamento do modelo usando o conjunto de dados observados, notadamente as discrepâncias 
entre os valores observados e os valores ajustados pelo modelo, ou seja, fazemos uma 
análise dos resíduos. 

O i-é simo resíduo é dado por 



(16.60) 


Lembremos que já utilizamos estes resíduos para obter medidas da qualidade e dos 
estimadores dos parâmetros do modelo. Agora iremos estudar o comportamento indi¬ 
vidual e conjunto destes resíduos, comparando com as suposições feitas sobre os verdadeiros 
erros e r Existem várias técnicas formais para conduzir essa análise, mas aqui iremos 
ressaltar basicamente métodos gráficos. Para mais detalhes, ver Draper e Smith (1998). 
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Uma representação gráfica bastante útil é obtida plotando-se pares (x., q), / = 1, n. Outras 
vezes, é de maior utilidade fazer a representação gráfica dos chamados resíduos padronizados, 



plotando-se os pares (x., 2.). Observe que a forma dos dois gráficos será semelhante, 
havendo apenas uma mudança de escala das ordenadas nos dois casos. Por isso, iremos 
usar a primeira representação, indicando no gráfico a posição do valor S e . 

Outro resíduo usado é o chamado resíduo estudentizado, definido por 

r - e ' , (16.62) 

onde v /7 = l/n + (x. - x) 2 /X(x ( . - x) 2 . O denominador de (16.62) é o desvio padrão de 
ê r Não iremos explorar aqui a análise feita com esse tipo de resíduo. 

Exemplo 16.7. Voltemos ao Exemplo 15.1. Os resíduos do modelo (16.18) estão reprodu¬ 
zidos na Tabela 16.4, dos quais foram obtidos os demais. Os dois primeiros resíduos estão 
representados na Figura 16.6. Note que os dois gráficos são parecidos e levarão ao mesmo 
tipo de diagnóstico. Comentários adicionais sobre esse exemplo serão feitos abaixo. 


Tabela 16.4: Resíduos para o modelo (16.18). 


Idade 

ê i 

*, 


Idade 

ê, 



20 

-2,5 

-0,45 

-0,49 

30 

1,5 

0,27 

0,28 

20 

-6,5 

-1,16 

-1,26 

30 

-7,5 

-1,34 

-1,37 

20 

7,5 

1,34 

1,45 

35 

0,0 

0,0 

0,0 

20 

1,5 

0,27 

0,29 

35 

-7,0 

-1,25 

-1,30 

25 

-5,0 

-0,89 

-0,92 

35 

6,0 

1,07 

1,11 

25 

1,0 

0,18 

0,19 

35 

-4,0 

-0,72 

-0,75 

25 

7,0 

1,25 

1,30 

40 

-4,5 

-0,80 

-0,86 

25 

-2,0 

-0,36 

0,37 

40 

-5,5 

-0,98 

-1,06 

30 

8,5 

1,52 

1,56 

40 

9,5 

1,70 

1,84 

30 

-1,5 

-0,27 

-0,28 

40 

-0,5 

-0,09 

-0,10 


Figura 16.6: Resíduos para o Exemplo 16.1. (a) è j =y.~ j?.; (b) resíduos padronizados. 
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Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis inade¬ 
quações. Apresentamos na Figura 16.7 alguns tipos usuais de gráficos de resíduos. A 
Figura 16.7 (a) é a situação ideal para os resíduos, distribuídos aleatoriamente em 
torno do zero, sem nenhuma observação muito discrepante. 


Figura 16.7: Gráficos de resíduos, (a) situação ideal; (b), (c) modelo não-linear; (d) elemento atípico; (e), 
(f), (g) heterocedasticidade; (h) não-normalidade. 
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Nas situações (b) e (c) temos possíveis inadequações do modelo adotado, e as 
curvaturas sugerem que devemos procurar outras funções matemáticas que expliquem 
melhor o fenômeno. 

A Figura 16.7 (d) mostra a existência de um elemento discrepante, e deve ser investigada 
a razão desse desvio tão marcante. Pode ser um erro de medida, ou a discrepância pode 
ser real. Em situações como essa, em que há observações muito diferentes das demais, 
métodos chamados robustos têm de ser utilizados. 

Os casos (e), (f) e (g) indicam claramente que a suposição de homoscedasticidade 
(mesma variância) não está satisfeita. Em (h), parece haver maior incidência de obser¬ 
vações nos extremos, mostrando que a suposição de normalidade não está satisfeita. 

Analisados os resíduos e diagnosticada uma possível transgressão das suposições, 
devemos propor alterações que tornem o modelo mais adequado aos dados e às supo¬ 
sições feitas. 

A verificação da hipótese de normalidade pode ser realizada fazendo-se um histograma 
dos resíduos ou um gráfico de q x q, como explicado no Capítulo 3. 

Exemplo 16.7. (continuação) A análise dos resíduos do modelo (16.18) mostra que 
esses não violam as suposições de média zero e variância comum. A Figura 16.8 mostra 
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o histograma dos resíduos, e a Figura 16.9 mostra um gráfico q x q. Esse gráfico, feito 
com o SPIus, coloca nos eixos das ordenadas os valores crescentes dos ê i e no eixo das 
abscissas os quantis de uma normal padrão. Se os valores fossem de uma normal, eles 
deveriam se dispor ao longo de uma reta. Notamos que tanto o histograma quanto o 
gráfico de quantis mostram que os resíduos não são normalmente distribuídos. 


Figura 16.8: Histograma dos resíduos do modelo (16.18). 



-10 -5 O 5 IO 15 

Resíduos 


Figura 16.9: Gráfico q xq (normalidade) para os resíduos 
do modelo (16.18). 



Quando a suposição de variância comum não estiver satisfeita, usualmente faz-se 
uma transformação da variável resposta y, ou da preditora x, ou de ambas. Para detalhes, 
ver Bussab (1986) e a seção 16.6. 

Exemplo 16.8. Num processo industrial, além de outras variáveis, foram medidas: X = 
temperatura média (°F) e Y = quantidade de vapor. Os dados estão na Tabela 16.5 
(Draper & Smith, 1998, Appendix A). 
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Tabela 16.5: Temperatura e quantidade de vapor de um 
processo industrial. 


N s 

X, 

y, 

ê; 

1 

35,3 

10,98 

0,174 

2 

29,7 

11,13 

-0,123 

3 

30,8 

12,51 

1,345 

4 

58,8 

8,40 

-0,531 

5 

61,4 

9,27 

0,547 

6 

71,3 

8,73 

0,797 

7 

74,4 

6,36 

-1,326 

8 

76,7 

8,50 

0,998 

9 

70,7 

7,82 

-0,161 

10 

57,5 

9,14 

0,106 

11 

46,4 

8,24 

-1,680 

12 

28,9 

12,19 

0,873 

13 

28,1 

11,88 

0,499 

14 

39,1 

9,57 

-0,933 

15 

46,8 

10,94 

1,052 

16 

48,5 

9,58 

-0,173 

17 

59,3 

10,09 

1,199 

18 

70,0 

8,11 

0,073 

19 

70,0 

6,83 

-1,207 

20 

74,5 

8,88 

1,202 

21 

72,1 

7,68 

-0,189 

22 

58,1 

8,47 

-0,517 

23 

44,6 

8,86 

-1,204 

24 

33,4 

10,36 

-0,598 

25 

28,6 

11,08 

-0,261 


Fonte: Droper e Smith (1998). 


0 gráfico de dispersão e a reta de M Q estão na Figura 16.10 (a). A reta estimada de 
M Q é dada por 


y. = 9,424 - 0,0798(x, - 52,6), (16.63) 

ou ainda 


9, = 13,623 - 0,0798x„ (16.64) 

de modo que ã = 13,623 e $ = -0,0798. Os resíduos ê j =y, - y, estão na quarta coluna 
da Tabela 16.5 e seu gráfico contra x, na Figura 16.10 (b). O gráfico q x q para verifi¬ 
car a suposição de normalidade está na Figura 16.10 (c). Observamos que há vários 
pontos afastados da reta. 
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Figura 16.10 (a) gráfico de dispersão com reta ajustada; 

(b) resíduos VS temperatura; 

(c) gráfico q x q (normalidade). 




ijnn 


emas 


13. Com o modelo linear já obtido para a acuidade visual como função da idade, construa 
os tipos de resíduos apresentados no Exemplo 16.6. Represente-os graficamente. Você 
observa alguma transgressão das suposições básicas? 
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14. Para cada gráfico de resíduo abaixo, indique qual a possível transgressão observada. 
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(b) 

• 
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• • • • 

• • • 

(C) 

* . * 

(d) 


15. Abaixo estão os valores da variável preditora (x), os resíduos observados depois do ajuste 
do modelo e a ordem em que os dados foram obtidos. 


Preditor 

11 

20 

14 

22 

12 

25 

15 

Resíduo 

-1 

-2 

3 

-3 

-1 

5 

0 

Ordem 

9 

6 

13 

1 

7 

14 

8 


Preditor 

14 

19 

21 

18 

22 

ló 

21 

Resíduo 

0 

3 

-2 

2 

-5 

0 

1 

Ordem 

3 

12 

4 

11 

2 

10 

5 


(a) Verifique se existe alguma possível transgressão das suposições, analisando o gráfico (x„ ê f ). 

(b) Faça o gráfico do resíduo contra a ordem do experimento. Você observa alguma 
inconveniência? 


16.6 Alguns Modelos Especiais 

Nesta seção introduziremos alguns modelos particulares simples e que são de interesse 
prático. Iniciamos com o modelo que teoricamente passa pela origem. Depois, consideramos 
modelos não-lineares, mas que podem ser linearizados por meio de alguma transformação. 

16.6.1 Reta Passando pela Origem 

Em algumas situações temos razões teóricas (ou ditadas pelas peculiaridades do 
problema a analisar) para supor que o modelo deva ser do tipo 

y,=/3x ,+e ( , i'=l. n. 


(16.65) 
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Com as mesmas suposições anteriores e observada uma amostra (x„ y,), i = 1, n, 
é fácil ver que o EM Q de p é 

ô_2=i X A/ (16.66) 

Deixamos a cargo do leitor verificar como ficam os resultados obtidos anterior¬ 
mente para o modelo completo nesse caso particular. Por exemplo, 

E (j8) = A 

Var(/3) = 




Exemplo 16.9. A mensuração exata (Y) de uma substância do sangue, por meio de uma 
análise química, é muito cara. Um novo método mais barato resulta na medida X, que 
supostamente pode ser usada para prever o valor de Y. Nove amostras de sangue foram 
obtidas e avaliadas pelos dois métodos, obtendo-se as medidas abaixo. 


X 

119 

155 

174 

190 

196 

233 

272 

253 

276 

Y 

112 

152 

172 

183 

192 

228 

263 

239 

263 


Algumas estatísticas obtidas são: 

n= 9, E/X, = 1.868, E,y, = 1.804, 

E/ x.y. = 396.933, X,xf = 411.436, E/^ = 383.028. 


Vamos ajustar o modelo (16.65) a esses dados. Obtemos 
p = 396.933/411.436 = 0,9648, 
resultando no modelo ajustado 

9, = 0,9648x,., /' = 1, 2, ..., 9. 

É fácil ver que S e 2 = 5,9136 e S e = 2,4318. Para testar a hipótese H 0 : p = 0, usamos 
a estatística 

t(p)=J^J^, 

^e 

que resulta ser igual a t(/3) = (0,9648/2,4318)V411.436 = 254,48, o que claramente leva 
à rejeição de H 0 . Um intervalo de confiança para /3, com coeficiente de confiança 95% é 

0,9648 ± (2,306) -JEáEL = 0,9648 ± 0,0087, 

V 411.436 


ou seja, 


IC(A 0,95) = [0,9561; 0,9735], 
Os dados e a reta ajustada estão na Figura 16.11. 
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Figura 16.11 : Dados e reta ajustada para o Exemplo 16.8. 



1Ó.Ó.2 Modelos Não-Lineares 

Quando usamos modelos de regressão, ou qualquer outro tipo de modelo, a situação 
ideal é aquela em que o pesquisador, por razões teóricas inerentes ao problema real sob 
estudo, pode sugerir a forma funcional da relação entre duas ou mais variáveis. Na prática, 
isso nem sempre acontece. Muitas vezes o pesquisador está interessado em usar técnicas 
de regressão para explorar modelos convenientes sugeridos pelos dados observados. 

Como vimos, o primeiro passo para investigar o tipo de modelo a ser adotado é a 
representação gráfica dos dados, a qual pode sugerir a forma da curva relacionando as 
variáveis, além de fornecer outras informações (veja o final da seção 16.1). Por exemplo, 
com os dados da Tabela 16.6 obtemos o diagrama de dispersão da Figura 16.12. Nota¬ 
mos claramente a inadequação da reta como modelo, sendo que provavelmente uma 
relação exponencial do tipo 

f(x) = cce?* (16.67) 


seja mais adequada. Um modelo que pode, então, ser sugerido, é 

y. = ae * + £., i =1, ..., n. (16.68) 

Tabela 16.6: Taxa de Inflação no Brasil de 1961 a 1979. 


Ano 

t 

Inflação (Y) 

Y* = logY 

1961 

-9 

9 

2,2 

1963 

-7 

24 

3,2 

1965 

-5 

72 

4,3 

1967 

-3 

128 

4,8 

1969 

-1 

192 

5,2 

1971 

1 

277 

5,6 

1973 

3 

373 

5,9 

1975 

5 

613 

6,4 

1977 

7 

1.236 

7,1 

1979 

9 

2.639 

7,9 
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Figura 16.12: Dados de inflação no Brasil (pontos) e 
modelo exponencial ajustado (+). 



Suponha que queiramos estimar os parâmetros a e p pelo método de mínimos 
quadrados. Devemos minimizar 

S(a, p) = te 2 = Í(y. - ae^) 2 . (16.69) 

i=i i=i 

Derivando S em relação a a e p e igualando a zero, obtemos as duas equações 

â = Vy.eÃ, 

i=i i=i 

â 2 Vx.e* = «Vx. y.e^'. (16.70) 

Í=1 i =1 

A solução desse sistema de equações não-lineares exige o uso de procedimentos 
de otimização não-lineares, como Newton-Raphson, Gauss-Newton, "scoring" e outros. 
Ou seja, os pontos de máximo da função S são obtidos numericamente, dada a impos¬ 
sibilidade de termos soluções analíticas para as equações (16.70). Mas devemos dizer 
que essa é a regra, mais do que a exceção, em problemas encontrados na prática. 
Portanto, a utilização desses procedimentos de otimização é um requisito importante 
para estudantes de áreas como estatística, economia, engenharia etc. 

Neste livro, vamos nos limitar a tratar de alguns casos onde transformações das 
variáveis sob estudo permitirão o uso de um modelo linear simples. 

Suponha que a função (16.67) seja apropriada para os dados da Tabela 16.6. Con¬ 
sidere o modelo 

y i = ae^S/, i = 1, ..., n. (16.71) 

Observe que nesse modelo os erros e j entram de forma multiplicativa e não aditiva, 
como no caso do modelo (16.6). Considerando, agora, o logaritmo (na base e) de 
ambos os lados de (16.71) e chamando 

y* = logy ( ., a* = log a, e* = log e j( (16.72) 

podemos escrever o modelo na forma 

y* = a* + /3x ( + £*, i = 1, ..., n. (16.73) 

Note que esse modelo é linear em a* e p, e temos que supor que os erros e, sejam 
positivos; do contrário, não podemos tomar logaritmos deles. Por outro lado, os erros 
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e* podem ser negativos, positivos ou nulos. Portanto, para o modelo linear (16.73) 
podemos fazer as suposições usuais das seções anteriores. 

Exemplo 16.10. Utilizando os dados da Tabela 16.6, devemos, inicialmente, calcular 
os logaritmos naturais da variável Y. Note que nesse exemplo a variável explicativa é o 
tempo, convenientemente codificado. Na Figura 16.13 temos o diagrama de dispersão 
dos dados transformados e da reta ajustada, a saber 

y* = 5,27 + 0,28t, t = - 9.9. (16.74) 

A análise de tal modelo pode ser conduzida como antes. Veja o Problema 35. 
Observe que o modelo original ajustado é 

9, = 194,42 • e°' 28t , /' = 1. 10, (16.75) 

pois a = e 5 ' 27 . Essa curva está representada na Figura 16.12. Os resíduos do modelo 
(16.74), transformado, e do modelo (16.75), original, são dados na Tabela 16.7 e nas 
Figuras 16.14 e 16.15, respectivamente. Note que em ambos os casos os resíduos não 
parecem ser aleatórios, havendo curvaturas, sugerindo a possibilidade de um modelo 
com termos quadráticos ou cúbicos, por exemplo. 


Figura 16.13: Diagrama de dispersão para o loga¬ 
ritmo da inflação com reta ajustada. 



Tabela 16.7: Resíduos para os modelos linear e exponencial. 


t 

Resíduos 

Reta 

Resíduos 

Exoonencial 

-9 

-0,55 

-6,643 

-7 

-0,11 

-3,386 

-5 

0,43 

24,057 

-3 

0,37 

44,067 

-1 

0,21 

45,061 

1 

0,05 

19,757 

3 

-0,21 

-77,348 

5 

-0,27 

-175,412 

7 

-0,13 

-145,251 

9 

0,11 

222,632 
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Figura 16.14: Resíduos da reta ajustada ao logaritmo 
da inflação versus ano. 



Figura 16.15: Resíduos do modelo exponencial ajus¬ 
tado aos dados originais versus ano. 



Os histogramas e gráficos q x q para normalidade dos resíduos estão nas Figuras 
16.16 e 16.17. Notamos que o histograma é assimétrico, mostrando claramente o valor 
correspondente a t = 9. Como há poucos pontos, a análise de resíduos fica prejudicada; 
o gráfico q x q mostra os pontos não muito próximos de retas. 


Figura 16.16: Histogramas: (a) resíduos reta ajustada ao log (inflação); 

(b) resíduos modelo exponencial. 
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Figura 16.17: Gráficos q xq dos resíduos: (a) reta; (b) exponencial. 



16.7 Regressão Resistente 

Nesta seção vamos considerar apenas o caso de regressão linear simples. Ou seja, 
temos os valores observados (x,, y), i = 1, n e queremos ajustar o modelo (16.6). 

Notamos que os estimadores â e fi em (16.14) são baseados em x, y e desvios em 
relação a essas médias. 

A regressão resistente baseia-se em medianas, em vez de médias. Inicialmente, dividi¬ 
mos o conjunto dos n pontos em três grupos, de tamanhos aproximadamente iguais, basea¬ 
dos principal mente na ordenação da variável x e no gráfico de dispersão. Chamemos esses 
grupos de E (deesquerda), C (de centro) e D (de direita). Sen = 3k, cada grupo terá k pontos. 
Se n = 3k + 1, colocamos k pontos nos grupos E e D e k +1 pontos no grupo C. Final¬ 
mente, se n = 3k + 2, colocamos k + 1 pontos nos grupos E e D e k pontos no grupo C. 

Para cada grupo obtemos um ponto resumo, formado pela mediana dos x ( . e a 
mediana dos y. naquele grupo. Denominemos esses pontos por 

(x £ , y E ), (x c , y c ), (x D , y D ). 

Na Figura 16.18 temos um exemplo com três grupos com k = 3 em cada grupo. 


Figura 16.18: Reta resistente com três grupos. 
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Os estimadores de /? e a são dados, respectivamente, por 

b = y D -y E ( 16 . 76 ) 

° *D-V 

a 0 = 4 [(y E - Ve) + (y c - V c ) + (y D - Vd))- (16.77) 

A reta resistente ajustada é 

y, = a 0 + b 0 x., i=l, ..., n. (16.78) 

Os modelos robustos necessitam, muitas vezes, recorrer a processos interativos para 
obter estimadores mais eficientes. Isso deve ser feito quando os resíduos não forem bem 
comportados. Não abordaremos esse tópico neste livro. Veja Hoaglin et al. (1983) para 
mais informação. 

Exemplo 16.11. Voltemos aos dados do exemplo 16.1. Como n = 20 = 3 x 6 + 2, os grupos E, 
C e D serão formados com 7, 6 e 7 pontos, respectivamente. Observando a Figura 16.1, 
consideramos os grupos como seguem: 


Grupo E 


i 

2 

1 

4 

3 

5 

8 

6 

Idade 

20 

20 

20 

20 

25 

25 

25 

Y 

92 

96 

100 

106 

98 

101 

104 


Grupo C 


i 

7 

12 

10 

11 

9 

14 

Idade 

25 

30 

30 

30 

30 

35 

Y 

110 

100 

106 

109 

116 

105 


Grupo D 


/ 

16 

13 

15 

18 

17 

20 

19 

Idade 

35 

35 

35 

40 

40 

40 

40 

Y 

108 

112 

118 

112 

113 

117 

127 


Os pontos resumidores são: 


(x E ,y E ) =(20, 100), 
(x c ,y c ) =(30, 107, 5), 
(x D ,y D ) =(40, 112), 

logo, as estimativas dos coeficientes serão 
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a = _L[(iOO - 0,6(20)) + (107,5 - 0,6(30)) + (112 - 0,6(40))] = 88,3 
3 


de modo que a reta resistente ajustada será 

y, = 88,3 + 0,6x f , 

que está representada na Figura 16.19, justamente com a reta de MQ, dada em (16.18). 


Figura 16.19: Reta de MQ (— ) e reta resistente (-) 

para o Exemplo 16.11. 


120 - 



20 25 30 35 40 

Idade 


Na próxima seção daremos um exemplo em que as duas retas, a de M Q e a 
resistente, são bastante diferentes. 

16.8 Exemplos Computacionais 

Nesta seção vamos considerar dois exemplos: um sobre a aplicação a dados reais do mer¬ 
cado de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier. 

Exemplo 16.12. Retomemos o Exemplo 4.13, no qual consideramos as variáveis Y = 
preço de ação da Telebrás e X = índice da Bolsa de Valores de São Paulo, cada uma com 
n = 39 observações. O gráfico de dispersão das duas variáveis está na Figura 16.20, 
juntamente com a reta de mínimos quadrados. O modelo ajustado é 


9, = -5,57 + 0,93x ( , 


e no Quadro 16.1 temos a saída do programa M initab. Nesta, encontramos: 

(a) Estimativas dos coeficientes cce/3, juntamente com as estimativas dos desvios padrões 
respectivos (1,085 e 0,0297). 

(b) Valores da estatística t, para testar as hipóteses nulas de que os coeficientes são 
nulos (denotadas por T), juntamente com o valor-p (P = 0,000), mostrando que 
devemos rejeitar essas hipóteses nulas. 
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(c) Uma tabela de análise de variância, com o valor F = 969,44, com 1 e 37 g.l., e o 
valor-p P = 0,000. 

(d) O valor de R 2 = 96,3%, que nos diz que o modelo ajustado explica a maior parte da 
variabilidade dos dados. 

Figura 16.20: Gráfico de dispersão das variáveis X e Y , 
para o Exemplo 1 ó. 12 e reta ajustada. 



Quadro 16.1: Análise do Exemplo 16.1 2. Minitab. 


Regression Analysis 

The regression equation is 

Tel = - 5.57 + 0.925 Ibv 





Predictor 

Coef 

StDev 

T 

P 


Constant 

-5.570 

1.085 

-5.13 

0.000 


Ibv 

0.92491 

0.02971 

31.14 

0.000 


S = 0.7614 

R-Sq = 

96.3% R- 

Sq (adj) 

= 96.2% 


Analysis of Variance 





Source 

DF 

SS 

MS 

F 

P 

Regression 

1 

561.99 

561.99 

969.44 

0.000 

Residual Error 

37 

21.45 

0.58 



Total 

38 

583.44 





Na Figura 16.21 temos gráficos que nos auxiliam a fazer um diagnóstico do modelo 
ajustado. Na Figura 16.21(a) temos o gráfico q x q dos quantis dos resíduos contra os 
quantis da normal padrão, para avaliar a normalidade dos resíduos. Na Figura 16.21(b) 
temos o gráfico dos resíduos contra a ordem das observações e, na Figura 16.21(d), o 
gráfico dos resíduos contra os valores ajustados. Finalmente, na Figura 16.21(c) temos 
o histograma dos resíduos. O que você pode dizer desses gráficos? 
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Figura 16.21: Gráficos após o ajuste do modelo: análise de resíduos, Exemplo 16.11. Minitab 



Exemplo 16.13. Considere os dados da Tabela 16.8, provenientes da mensuração da 
velocidade do vento no aeroporto de Philadelphia (EUA), sempre a uma hora da manhã, 
para os primeiros 15 dias de dezembro de 1974 (Graedel e Kleiner, 1985). 


Tabela 16.8: Velocidade do vento no aeroporto de Philadelphia. 


t 

v , 

1 

22,2 

2 

61,1 

3 

13,0 

4 

27,8 

5 

22,2 

6 

7,4 

7 

7,4 

8 

7,4 


t 

v , 

9 

20,4 

10 

20,4 

11 

20,4 

12 

11,1 

13 

13,0 

14 

7,4 

15 

14,8 


Observamos no diagrama de dispersão da Figura 16.22 o valor atípico 61,1 desta¬ 
cado dos demais pontos. A reta de M Q ajustada aos dados é 

9 t = 30,034 - l,454t, t = 1,2. 15, (16.79) 

e é "puxada" por esse ponto. Essa reta está representada por uma linha cheia na figura. 
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Para ajustar a reta resistente, consideramos três conjuntos de cinco pontos. É fácil 
ver que obtemos 

^ = 21,56 - 0,92 1, t = 1,2. 15 (16.80) 

também representada por uma linha tracejada na figura. 


Figura 16.22 Reta de MQ (-) e resistente (-) para os da¬ 

dos de velocidade do vento. 



16.9 Problemas e Complementos 

16. Com o modelo 1 = â + /3x para a acuidade visual, desenvolvido nos problemas anteriores: 

(a) construa o IC de 95% para a acuidade visual média dos indivíduos com 18 anos 
de idade; 

(b) construa o IC de 95% para a acuidade visual esperada para indivíduos com 30 anos 
de idade; e 

(c) construa o IC com 95% de confiança para a acuidade visual média dos indivíduos 
com 80 anos. Comente o resultado. 

17. No Problema 6, qual o tempo médio esperado para empacotar um volume com 30 dm 3 ? 

18. Os dados abaixo referem-se a meses de experiência de dez digitadores e o número de 

erros cometidos na digitação de determinado texto. 


Meses x 

1 

2 

3 

4 

5 

ó 

7 

8 

9 

10 

Erros y 

30 

28 

24 

20 

18 

14 

13 

10 

7 

6 


Dados: V x. = 60, V xf = 460, V y. = 170, V x,y, = 768 

(a) Represente graficamente esse conjunto de dados. 

(b) Assumindo que um modelo de regressão linear é adequado, determine os coeficientes 
da equação pelo método dos mínimos quadrados. 
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(c) Represente a reta de regressão no gráfico feito anteriormente. 

(d) Qual a posição do ponto (X,y) em relação à reta de regressão? 

(e) Qual o número esperado de erros para um digitador com 5 meses de experiência? 

19. Os dados abaixo correspondem às variáveis renda familiar e gasto com alimentação 
numa amostra de dez famílias, representadas em salários mínimos. 


Renda familiar (x) 

Gasto com alimentação (y) 

3 

1,5 

5 

2,0 

10 

6,0 

20 

10,0 

30 

15,0 

50 

20,0 

70 

25,0 

100 

40,0 

150 

60,0 

200 

80,0 


Obtenha a equação de regressão y = â + px. 

(a) Qual a previsão do gasto com alimentação para uma família com renda de 
170 reais? 

(b) Qual a previsão do gasto para famílias com excepcional renda, por exemplo 1.000 
reais? Você acha esse valor razoável? Por quê? 

(c) Se você respondeu que o valor obtido em (b) não é razoável, encontre uma explica¬ 
ção para o ocorrido. (Sugestão: interprete a natureza das variáveis X e V e o compor¬ 
tamento de Y para grandes valores deX.) 

20. Aanálise do lucro anual de uma ação, como função linearda sua cotação média anual, 
forneceu os resultados abaixo com alguns campos em branco. Preencha as lacunas e 
interprete os resultados. 


ANOVA 


Fonte 

g.l. 

SQ 

QM 

F 

Regressão 

Resíduo 


1209 



Total 

11 

1766 




Modelo 


Descrição 

Coef. 

EP 

t 

valor-p 

LI (95%) 

LS (95%) 

Intercepto 

49,00 

22,00 


0,055 

-1,34 


Cotação 

0,30 

0,07 


0,003 


0,45 


21. Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados. A 
tabela abaixo mostra o número de anúncios publicados e o correspondente número de 
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carros vendidos por seis companhias que usaram apenas esse jornal como veículo 
de propaganda. 


Companhia 

A 

B 

C 

D 

E 

G 

Anúncios 

74 

45 

48 

36 

27 

16 

Carros vendidos 

139 

108 

98 

76 

62 

57 


Ajustando-se a reta de regressão, obteve-se y = l,516x +27,844 e F =70,17. Como você 
argumentaria com a companhia G para que ela aumentasse o número de anúncios, 
aumentando a venda de carros? 


22. O custo de manutenção de tratores parece aumentar com a idade do trator. Os seguin¬ 
tes dados foram obtidos (X representa idade em anos elo custo por seis meses): 

(a) Ajuste o modelo y = 0 O + ySjX e teste a hipótese de interesse para o nível a - 0,10. 

(b) Devemos procurar um modelo mais adequado? 

(c) Determine uma "previsão" para o custo de manutenção para tratores com 5 anos de 
idade e obtenha um intervalo de confiança com y=0,90. 

(d) Teste as hipóteses H 0 : /3 0 = 300, H 1 : /3 0 > 300, para o nível a - 0,05. 


X 

Y 

0,5 

163 

0,5 

182 

1,0 

978 

1,0 

466 

1,0 

549 

4,0 

495 

4,0 

723 

4,0 

681 

4,5 

619 

4,5 

1.049 

4,5 

1.033 

5,0 

890 

5,0 

1.522 

5,0 

1.194 

5,5 

987 

6,0 

764 

6,0 

1.373 


23. Origem do Termo Regressão. O uso do termo regressão deve-se a Francis Galton, por 
volta de 1885, quando investigava relações entre características antropométricas de 
sucessivas gerações. Uma de suas constatações era de que "cada peculiaridade de um 
homem é transmitida aos seus descendentes, mas, em média, numa intensidade menor". 
Por exemplo: embora pais com baixa estatura tendam a ter filhos também com baixa 
estatura, estes têm altura média maior do que a altura média de seus pais. O mesmo 
ocorre, mas em direção contrária, com pais com estatura alta. Essa afirmação pode ser 
mais bem compreendida observando-se os dados usados por Galton, e representados 
parcialmente na Figura 16.23. Se as características permanecessem as mesmas de 
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geração para geração, esperar-se-ia que a reta de regressão tivesse seu coeficiente 
angular próximo de 1. Em sua análise, Galton encontrou o valor 0,516, mostrando que 
a reta tende para aquela paralela ao eixo X e passando pela média (y -y). A esse 
fenômeno de a altura dos filhos mover-se em direção à altura média de todos os ho¬ 
mens ele chamou de regressão, e às vezes de reversão, tendo aparecido num artigo de 
1885, no Journal oftheAnthropological Institute, com o título "Regression Towards Mediocrity 
in Hereditary Stature" — Regressão para a Mediocridade em Estaturas Hereditárias; 
mediocridade, aqui, referindo-se a média. 


Figura 16.23: Média da altura de filhos contra altura com¬ 
posta dos pais, baseada no estudo de Galton. 



Os dados abaixo referem-se a outro experimento de Galton, dentro da mesma investiga¬ 
ção, procurando estudar a relação entre o diâmetro, em centésimos de polegada, de 
ervilhas-pais (x) e ervilhas-filhas (y). Analise a reta de regressão para os dados e interprete 
os coeficientes. 


Diâmetros em 0,01 de polegadas de sementes de ervilhas 


Pais (x) 

15,0 

16,0 

17,0 

18,0 

19,0 

20,0 

21,0 

Filhos (y) 

15,4 

15,7 

16,0 

16,3 

16,6 

17,0 

17,3 


24. Um pesquisador deseja verificar se um instrumento para medir concentração de ácido 
lático no sangue está bem calibrado. Para isso ele tomou 20 amostras de concentrações 
conhecidas e determinou a respectiva concentração através do instrumento. Como uma 
análise de regressão poderia auxiliar o pesquisador? Modele o problema acima, espe¬ 
cificando as variáveis independente e dependente e as hipóteses de interesse. 

25. Os dados abaixo correspondem a duas variáveis X e Y , onde: 

X = concentração conhecida de ácido lático e 

Y = concentração de ácido lático registrada pelo instrumento 
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X 

Y 

1 

1,1 

0,7 

1,8 

0,4 


3 

3,0 

1,4 

4,9 

4,4 

4,5 

5 

7,3 

8,2 

6,2 



10 

12,0 

13,1 

12,6 

13,2 


15 

18,7 

19,7 

17,4 

17,1 



Ajuste o modelo y = /3 0 + /3 X X e teste a hipótese H 0 : = 1 contra a alternativa 

H j: /3, ¥= 1. Tire conclusões com base no resultado desse teste. 


26. Sejam X: volume de precipitação pluvial 

V: produção de trigo por alqueire 

(a) Você acha que um modelo do tipo V = a + /3x +e seria adequado para essas variáveis? 
Por quê? 

(b) Caso esse modelo não seja adequado, esboce um gráfico do tipo de relação que 
você esperaria existir entre X e Y. 

27. Num experimento foram aplicadas três doses diferentes de insulina em coelhos e foram 
observadas quedas na quantidade de açúcar no sangue (variável 7) depois de determi¬ 
nados períodos. Nesse tipo de experimento, é usual admitir-se que a relação entre queda 
de açúcar e o logaritmo da dose da insulina é linear. 


log da dose (X ) 


0,36 

0,56 

0,76 

17 

64 

62 

21 

48 

72 

49 

34 

61 

54 

63 

91 


São dados: 

I>, = 6,72; V X 2 = 4,0832; V x .y. = 385,16; 

Vy. = 636; 2yf= 38 ' 60 2: x = 0,56; y=53. 

Faça um estudo completo sobre o ajuste do modelo y = /3 0 + /^x + £a esses dados. 

28. A indústria farmacêutica MIMI vende um remédio para combater resfriado. Após dois 
anos de operação, ela coletou as seguintes informações trimestrais: 


Trimestre 

Vendas 

(10.000) 

(Y) 

Despesas 

c/Propaganda 

(X) 

Temperatura 

Média do Trimestre 
(Z) 

1 

25 

11 

2 

2 

13 

5 

13 

3 

8 

3 

16 

4 

20 

9 

7 

5 

25 

12 

4 

6 

12 

6 

10 

7 

10 

5 

13 

8 

15 

9 

4 
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Vy = 128; Vy? = 2.352; £yx = 1.101; 

Vx = 60; V X 2 = 522; V yz = 897; 

z = 69; V Z 2 = 779; V xz = 397. 

(a) Faça os gráficos (x, y) e (z, y). 

(b) Encontre as retas y =a + £>x ey =c + dz. 

(c) Qual das duas você acha estatisticamente mais adequada para prever as vendas? 
Por quê? 

(d) De acordo com a decisão acima, qual a previsão de vendas para um trimestre em 
que a despesa de propaganda será 8 e a temperatura prevista 10? 

29. Para construir um modelo linear relacionando a quantidade de fertilizantes usada (x) e a 
produtividade obtida (y) com uma amostra de sete canteiros, o pesquisador obteve as 
seguintes estatísticas: 


x = 400, y =60, s x = 216,02, s y = 13,84 e r= 0,922. 

(a) Encontre as estimativas do modelo y = â + /k. 

(b) Construa a tabela ANOVA. 

(c) Analise os resultados. 

30. Mostre que o coeficiente angular da fórmula (16.14) pode ser escrito como 

s _ ü(x, - x)(y, - y) = _% 

I(x,-X ) 2 s x 2 


Prova. De (16.14) temos: 


s _ ^x j y i - nxy 
Ex 2 - nx 2 


B x i ~ x)(y r y) ='Z(x i y i - xy. - yx ; + xy) 
= l x ,y,- xVy r yTx j +nxy 
=Yx.y r nxy- nxy +nxy =V x .y.- nxy. 


De modo análogo, 

X(x,.- x) 2 =Zx 2 -nx 2 . 

Definindo-se s„„ =- r^ X i~ x ^yr F) e 

y n - 1 


S; = 


n- 1 


XK-x ) 2 


a demonstração está completa. 







490 


CAPÍTULO 16 — REGRESSÃO LINEAR SIMPLES 


31 . Demonstre a fórmula (16.30), ou seja: 

Z(y,- y) 2 =X(y, - y) 2 +Xê 2 . 


Prova. De (16.29) 

y,- y=y i -9 i - y=ê,+(y i - y), 

e elevando ao quadrado ambos os membros e somando-os, obtemos 

£(y,- y) 2 =Sê 2 +S(yi-y) 2 + 2S(y, - y)ê r 

Mas, como 

y, = y + 0(x, - X) e ê. =y, - y - j3(x f - x), 

teremos 

Sé,.(y,. - y) =E[(y f - y)- (x,- x)][y3(x ; .- x)] 

=pl(y i -y){x i -x)-piY(x j -x)\ 

Usando a expressão de /3, do Problema 30, obtemos 

2>,.(y,-y)=0, 

o que demonstra a expressão. 

32. Mostre que E(S 2 ) = o\. 


Prova. Vamos decompor a demonstração em três partes: 

(a) Vejamos quanto vale E (SQTot). Temos: 

Y j = a + /3x ( +e ( , /' = 1,2, e i ~ N(0, a]). 
Somando as n parcelas em cada membro e dividindo por n, obtemos: 

Y=a + /3x + e, e ~ N (0; a 2 Jn), 

e, ainda, 

Y -Y = p(x r x) + e .- ê, 

SQTot=y(y,.-n 2 

-^ 2 S(x, - x) 2 +Z(e f - ê) 2 
+ 2pY(x r x)(e r e). 

Calculando a esperança, teremos: 

£ (SQTot) =pCZ(x r xY + E[l(e r êY] 

+ 2pY(x r x)E (e, - e) 

= y3 2 S(x ; -x) 2 +E [S(e,-ê) 2 ] +0. 
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Mas 


E[I(e,.-ê) 2 ]=(n-l)E 


S(e,- e) 2 

n - 1 


= (n- Da], 


pois é equivalente à variância de uma amostra aleatória simples de tamanho n, 
retirada da população N (0, o 2 e ), e já vimos que essa é a expressão de um estimador 
não viesado da variância a\. Então: 

E(SQTot) =/? 2 X(Xj- x) 2 + (n - Da 2 e . 


(b) Vamos calcular agora E (SQReg). De (16.33), 

SQReg =p 2 T(x r x) 2 


e de (16.37), 


Var(/3)=<7e/2>r x) 2 . 

Mas da definição de variância, sabemos que 

Var (p)=E(p 2 )-E 2 (p)=E(p 2 )- p 2 
pois E (P) = p. Combinando estas expressões, teremos: 

E [SQReg] = T(x,- x) 2 E(P 2 ) = [Var(j3) +p]l(x r x) 2 


= a 2 e + P 2 Y( x í - x) 2 . 


Explicitamente, E[SQReg] =a 2 e + p 2 Y j (x l - x) 2 . 

(c) Finalmente, como 

SQRes =SQTot- SQReg, 

E [SQRes] =[p 2 Z(Xi-x) 2 +(n - l)cr e 2 ] - [a 2 e + p 2 Y( x r x) 2 ], 
E [SQRes] =(n- 2)a], 


a partir de que podemos escrever: 

ou seja, 

ç2_ S(y,-y ,) 2 

n-2 

é estimador não viesado de c^. 

33. Prove que Cov( Y, p) -0. 

(a) Inicialmente vamos provar que, se X e V são independentes, U = ãX + bY e 
V -mX +nY, então 


C ov(ü , 1/) =amVar(X ) +bnVar(y ). 
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Sabemos queCo\l(U ,V) =E(UV) - E(U) ■ E(V), 

E(U) =aE (X ) +bE (Y), 

E(V) =mE (X ) +nE (Y), 

E(UV) = E[(aX +bY)(mX +nY)l 

-amE (X 2 ) +anE (X Y)+bmE (XY) +bnE (Y 2 ). 

Substituindo na expressão da covariância, teremos: 

Co v(U , 1/) =amE (X 2 ) +bnE (Y 2 )+(an +bm)E (XY) 

- [amE 2 (X ) +bnE 2 (Y) + (an +bm)E (X )E (Y )] 

-am[E (X 2 ) - £ 2 (X )] +bn[(E (Y 2 ) - E 2 (Y )] 

+ (an +bm)[E (XY) - E (X)E (Y)] 

= amVar(X) +bnVar(Y), 

e o último termo desaparece, pois as variáveis são independentes. A expressão pode 
ser generalizada quandoX^Xj, ...,X n são independentes, com 

U =a 1 X 1 +a 2 X 2 + ... +a„X„ 

v=b 1 x 1 +b 2 x 2 +...+b n x n =Xb i x r , 

então, Cov(ti, V) =Ta ; b,Var(X,). 

Quando Var(X,) = o 2 , temos: 

Cov(L I, V) =o 2 Yaib r 

(,b) Cov(y, yâ) =0. 

Sabemos que: 

f-£Xr,-Z^r,-Za,r„co m a,-i, 

então 

Coiv(Y7y3) =Co \i(Zay,,'ZwY i ) =Zaw.Var(y.) 

= cj 2 e Y J a i w i =0, 

pois X a , = (l/o)^1/1/. =0, o que demonstra a propriedade. 

34. Obtenha (16.64) e os gráficos que seguem. 

35. Para o Exemplo 16.10, obtenha a tabela ANOVA e os intervalos de confiança para a* e 
p, ajustando o modelo (16.71). 

36. Ainda para o Exemplo 16.10, obtenha o intervalo de confiança para a. 

37. Para o exemplo da reação ao estímulo: 

(a) construa o IC para a média das pessoas com 28 anos de idade; 
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(b) construa o IP para uma futura pessoa de 28 anos de idade; 

(c) compare e ressalte as diferenças dos dois resultados. 

38 . Construa o gráfico das regiões de previsão da média e individual (1 - a- 0,95) para o 
modelo desenvolvido no Problema 3 e complementado no Problema 8. A que temperatu¬ 
ra a potência média já poderia ser considerada como zero? Compare com a resposta 
dada na questão (d) do Problema 3. 

39. Sejam Y = despesa com viagem, X = duração da viagem (em dias). Para uma amostra 
com n = 102 obteve-se: 

5> ( . = 510; Yy. = 7.140; Yx 2 = 4.150; Yxy,. = 54.900; Yy 2 = 740.200; x = 5; y = 70. 

(a) Obter a reta y = â + j3x r 

(b) Qual o significado prático de â e /3? 

(c) Uma viagem irá durar sete dias. Quanto o vendedor deve levar para que exista 
apenas uma chance em dez de lhe faltar dinheiro? 
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CONJUNTOS DE 


DADOS 


A seguir apresentamos vários conjuntos de dados, que serão referenciados no texto 
pela sigla CD acompanhada de um nome identificador. 

CD-Brasil: Dados sobre o Brasil 

CD-M unicípios: Populações de M unicípios do Brasil 

CD-Notas: Notas em Estatística 

CD-Poluição: Dados de Poluição de São Paulo 

CD-Temperaturas: Temperaturas M édias M ensais 

CD-Salários: Salários para Quatro Profissões 

CD-Veículos: Estatísticas sobre Veículos 

CD-PIB: Produto Interno Bruto do Brasil 

CD-M ercado: Preços de Ações daTelebrás e IB OVES PA 

CD-Placa: índices de Placa Bacteriana 

1. Dados sobre o Brasil 

Dados de superfície (em km 2 ), população estimada e densidade (hab/km 2 ) das 
unidades federativas (UF) do Brasil, por região. 

Fonte: IBGE, Contagem da População, 2007. 


Regiões 

UF 

Superfície 

População 

Densidade 

Norte 

RO 

237.576,167 

1.453.756 

6,12 


AC 

164.165,250 

653.385 

3,99 


AM 

1.559.161,810 

3.221,940 

2,07 


RR 

224.298,980 

395.725 

1,76 


PA 

1.247.689,515 

7.065.573 

5,66 


AP 

142.814,585 

587.311 

4,11 


TO 

277.620,914 

1.243.627 

4,48 


Subtot. 

3.853.327 

14.623.317 

3,79 

Nordeste 

MA 

331.983,293 

6.118.995 

18,43 


PI 

251.529,186 

3.032.435 

12,06 


CE 

148.825,602 

8.185.250 

55,0 


RN 

52.796,791 

3.013.740 

57,08 


PB 

56.439,838 

3.641.397 

64,52 


PE 

98.311,616 

8.486.638 

86,32 


AL 

27.767,661 

3.037.231 

108,38 


SE 

21.910,348 

1.939.426 

88,52 


BA 

564.692,669 

14.080.670 

24,94 


Subtot. 

1.554.257 

51.535.782 

33,16 
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1. Dados sobre o Brasil (cont.) 


Regiões 

UF 

Superfície 

População 

Densidade 

Sudeste 

MG 

586.528,293 

19.273.533 

32,86 


ES 

46.077,519 

3.351.669 

72,74 


RJ 

43.696,054 

15.420.450 

352,90 


SP 

248.209,426 

39.827.690 

160,46 


Subtot. 

924.511 

77.873.342 

84,23 

Sul 

PR 

199.314,850 

10.284.503 

51,6 


SC 

95.346,181 

5.866.487 

61,53 


RS 

281.748,583 

10.582.287 

37,56 


Subtot. 

576.410 

26.733.877 

46,38 

Centro 

MS 

357.124,962 

2.265.813 

6,34 

/Oeste 

MT 

903.357,908 

2.854.642 

3,16 


GO 

340.086,698 

5.647.035 

16,6 


DF 

5.801,937 

2.455.903 

423,29 


Subtot. 

1.606.372 

13.223.393 

8,23 

Brasil 

Total 

8.514.876,599 

183.989.711 

21,61 


2. Populações de Municípios do Brasil 

Populações (em 10.000 habitantes) dos 30 municípios mais populosos do Brasil. 
Fonte: IBGE, Contagem da População, 1996. 


N s 

Município 

População 

N s 

Município 

População 

1 

São Paulo (SP) 

988,8 

16 

Nova Iguaçu (RJ) 

83,9 

2 

Rio de Janeiro (RJ) 

556,9 

17 

São Luís (MA) 

80,2 

3 

Salvador (BA) 

224,6 

18 

Maceió (AL) 

74,7 

4 

Belo Horizonte (MG) 

210,9 

19 

Duque de Caxias (RJ) 

72,7 

5 

Fortaleza (CE) 

201,5 

20 

São Bernardo do Campo (SP) 

68,4 

6 

Brasília (DF) 

187,7 

21 

Natal (RN) 

66,8 

7 

Curitiba (PR) 

151,6 

22 

Teresina (PI) 

66,8 

8 

Recife (PE) 

135,8 

23 

Osasco (SP) 

63,7 

9 

Porto Alegre (RS) 

129,8 

24 

Santo André (SP) 

62,8 

10 

Manaus (AM) 

119,4 

25 

Campo Grande (MS) 

61,9 

11 

Belém (PA) 

116,0 

26 

João Pessoa (PB) 

56,2 

12 

Goiânia (GO) 

102,3 

27 

Jaboatão (PE) 

54,1 

13 

Guarulhos (SP) 

101,8 

28 

Contagem (MG) 

50,3 

14 

Campinas (SP) 

92,4 

29 

São José dos Campos (SP) 

49,7 

15 

São Gonçalo (RJ) 

84,7 

30 

Ribeirão Preto (SP) 

46,3 
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3. Notas em Estatística 

Notas de 100 alunos do curso de Economia da FEA-USP, em prova da disciplina 
Introdução à Probabilidade e à Estatística, 1999. 

Fonte: Autores. 


3,5 

4,0 

5,5 

6,0 

5,0 

5,5 

5,0 

5,5 

4,0 

10,0 

6,5 

9,5 

4,0 

7,0 

7,5 

3,0 

4,5 

5,0 

2,5 

6,0 

5,0 

6,5 

3,5 

4,5 

8,5 

4,0 

8,0 

7,0 

6,0 

7,5 

8,5 

6,0 

9,0 

6,0 

6,5 

7,5 

5,5 

6,5 

8,0 

8,5 

4,5 

7,5 

8,0 

3,0 

4,0 

8,0 

4,5 

5,5 

6,0 

6,0 

7,5 

3,5 

3,0 

7,0 

1,5 

4,5 

10,0 

5,5 

2,5 

10,0 

4,0 

6,5 

7,5 

5,5 

7,0 

7,5 

6,0 

6,5 

6,5 

5,5 

6,5 

5,0 

5,5 

7,5 

8,0 

6,5 

5,0 

7,0 

6,0 

5,5 

3,0 

5,0 

3,5 

6,0 

6,5 

6,0 

8,0 

5,5 

7,5 

6,0 

2,5 

7,5 

9,0 

6,0 

6,5 

3,5 

4,5 

7,0 

5,0 

5,0 


4. Dados de Poluição de São Paulo 

Dados de poluentes na cidade de São Paulo, I a jan. a 30 abr. 1991. 

CO: monóxido de carbono (ppm); 0 3 : ozônio (ppb) 

Temp.: temperatura (°C); Umid.: umidade relativa do ar ao meio-dia (%) 
Fonte: Saldiva et ai. (1994). 


Data 

CO 

o, 

Temp. 

Umid. 

Data 

CO 

o, 

Temp. 

Umid. 

Jan. 1 

6,6 

113,6 

15,2 

56 

21 

6,2 

134,3 

17,0 

57 

2 

6,2 

115,2 

15,5 

55 

22 

6,1 

82,1 

20,0 

61 

3 

7,9 

130,4 

16,8 

62 

23 

7,3 

233,2 

20,1 

61 

4 

8,6 

110,4 

16,4 

96 

24 

6,6 

72,0 

18,9 

68 

5 

8,8 

107,2 

15,2 

62 

25 

6,2 

96,8 

18,8 

70 

6 

6,4 

86,4 

16,0 

64 

26 

5,1 

61,6 

15,9 

94 

7 

6,9 

120,0 

16,3 

63 

27 

6,1 

32,8 

15,2 

97 

8 

7,9 

150,4 

17,8 

68 

28 

5,7 

35,2 

17,0 

63 

9 

8,2 

149,0 

18,1 

71 

29 

6,7 

87,2 

18,6 

61 

10 

8,7 

117,3 

18,3 

64 

30 

6,5 

85,6 

20,0 

63 

11 

6,3 

59,7 

19,2 

69 

31 

5,7 

34,7 

19,9 

88 

12 

6,3 

27,2 

17,2 

76 






13 

6,3 

119,2 

15,1 

62 






14 

6,4 

120,8 

18,9 

78 






15 

7,7 

26,7 

19,2 

90 






16 

7,9 

50,1 

18,3 

73 






17 

7,9 

35,2 

16,0 

94 






18 

7,7 

40,0 

15,5 

78 






19 

6,9 

96,0 

16,0 

62 






20 

6,2 

142,0 

18,0 

66 
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4. Dados de Poluição de São Paulo (cont.) 


Data 

CO 

o, 

Temp. 

Umid. 

Data 

CO 

o. 

Temp. 

Umid. 

Fev. 1 

5,8 

22,9 

18,9 

78 

15 

6,2 

172,7 

19,0 

70 

2 

6,2 

83,9 

17,8 

73 

16 

6,7 

65,2 

19,0 

80 

3 

5,5 

204,2 

17,0 

75 

17 

6,1 

149,2 

18,0 

63 

4 

6,7 

192,5 

17,9 

66 

18 

6,7 

100,0 

16,7 

76 

5 

7,9 

99,7 

18,0 

65 

19 

7,4 

128,4 

15,8 

65 

6 

6,4 

182,3 

17,8 

63 

20 

5,9 

135,7 

16,0 

58 

7 

6,9 

141,0 

18,2 

72 

21 

5,5 

121,2 

17,0 

99 

8 

6,4 

87,2 

18,0 

85 

22 

6,1 

85,2 

17,6 

57 

9 

5,2 

34,4 

18,5 

96 

23 

7,2 

48,4 

16,9 

86 

10 

5,7 

40,0 

18,9 

81 

24 

5,6 

81,6 

15,2 

61 

11 

4,7 

60,8 

20,0 

67 

25 

7,2 

72,8 

15,2 

71 

12 

7,3 

82,0 

17,9 

68 

26 

6,9 

164,9 

17,0 

63 

13 

6,2 

98,9 

18,0 

67 

27 

6,9 

137,1 

17,0 

58 

14 

6,7 

200,0 

17,0 

60 

28 

7,7 

82,4 

17,3 

62 


Data 

CO 

Oi 

Temp. 

Umid. 

Data 

CO 

o. 

Temp. 

Umid. 

Mar. 1 

6,3 

38,8 

18,9 

60 

17 

6,6 

92,8 

15,8 

59 

2 

7,7 

30,4 

18,8 

76 

18 

7,7 

97,1 

16,9 

55 

3 

6,4 

26,7 

18,1 

90 

19 

10,3 

32,0 

18,9 

97 

4 

6,4 

33,6 

18,3 

69 

20 

7,5 

56,0 

18,1 

65 

5 

7,9 

24,0 

18,1 

89 

21 

11,4 

91,7 

19,0 

74 

6 

6,2 

12,3 

18,0 

75 

22 

9,5 

38,9 

17,8 

88 

7 

6,8 

12,3 

18,0 

99 

23 

7,8 

33,1 

17,1 

75 

8 

8,0 

129,2 

21,0 

69 

24 

7,4 

34,7 

18,0 

78 

9 

8,3 

105,6 

19,0 

65 

25 

8,9 

140,8 

18,6 

77 

10 

7,8 

116,8 

19,0 

64 

26 

9,5 

27,7 

16,0 

92 

11 

6,9 

85,3 

19,0 

59 

27 

10,1 

18,8 

14,2 

94 

12 

7,5 

56,0 

19,0 

61 

28 

12,5 

24,0 

14,0 

96 

13 

8,4 

61,9 

20,1 

62 

29 

6,2 

33,1 

14,8 

83 

14 

8,1 

50,7 

18,0 

77 

30 

7,9 

28,8 

16,3 

91 

15 

6,6 

40,5 

16,9 

64 

31 

7,6 

18,7 

17,0 

81 

16 

7,1 

48,5 

15,2 

53 







Data 

CO 

o, 

Temp. 

Umid. 

Data 

CO 

o 3 

Temp. 

Umid. 

Abr. 1 

9,1 

27,2 

17,8 

56 

16 

7,8 

29,9 

18,5 

69 

2 

7,0 

42,7 

16,4 

69 

17 

11,6 

20,3 

18,0 

59 

3 

7,2 

62,4 

16,0 

62 

18 

6,9 

19,7 

19,0 

64 

4 

7,8 

68,3 

16,0 

64 

19 

7,8 

13,3 

16,1 

83 

5 

9,1 

16,5 

14,8 

80 

20 

6,9 

34,7 

13,1 

70 

6 

9,7 

122,1 

12,3 

57 

21 

4,7 

40,0 

13,8 

62 

7 

6,3 

104,0 

14,9 

66 

22 

7,9 

150,2 

14,8 

58 

8 

10,8 

35,2 

17,6 

65 

23 

7,4 

120,7 

13,2 

60 

9 

12,0 

150,3 

17,9 

70 

24 

8,5 

28,8 

14,9 

50 

10 

8,9 

48,8 

16,6 

60 

25 

8,5 

9,1 

15,5 

97 

11 

7,6 

38,4 

18,9 

52 

26 

9,0 

2,7 

15,9 

82 

12 

9,4 

59,7 

19,0 

56 

27 

8,9 

11,2 

14,1 

75 

13 

11,9 

39,6 

19,8 

82 

28 

10,3 

33,1 

14,5 

58 

14 

10,3 

63,5 

19,1 

57 

29 

6,1 

34,4 

14,0 

64 

15 

8,3 

92,0 

18,4 

60 

30 

7,0 

53,6 

15,1 

73 
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5. Temperaturas Médias Mensais 

Temperaturas médias mensais, em graus centígrados, de janeiro de 1976 a dezem¬ 
bro de 1985, em Cananéia e Ubatuba, São Paulo. 

Fonte: Boletim Climatológico, n s 6, 1989, IO-USP. 


Ano 

Cananéia 

Ubatuba 

Ano 

Cananéia 

Ubatuba 

1976 

25,2 

27,1 

1980 

24,4 

26,1 


24,3 

25,3 


25,0 

26,6 


24,2 

25,8 


26,4 

27,7 


21,4 

23,7 


23,6 

24,4 


19,8 

21,6 


21,7 

23,0 


17,0 

20,0 


18,2 

20,5 


17,2 

19,3 


17,6 

20,1 


17,6 

20,2 


17,8 

20,3 


20,2 

20,2 


17,3 

19,7 


21,6 

21,3 


20,2 

21,5 


22,5 

23,7 


22,2 

22,6 


24,0 

25,5 


24,6 

25,6 

1977 

25,3 

26,4 

1981 

25,0 

25,9 


26,4 

27,4 


26,2 

27,0 


24,9 

26,3 


24,3 

24,7 


21,8 

23,8 


22,3 

22,9 


21,0 

22,3 


21,9 

22,3 


19,3 

20,8 


18,2 

19,9 


20,8 

22,6 


17,1 

19,0 


19,6 

21,6 


18,0 

20,2 


20,2 

21,6 


19,5 

21,4 


21,6 

22,5 


19,4 

20,7 


22,5 

23,3 


23,2 

23,4 


24,0 

24,1 


23,6 

23,8 

1978 

24,8 

25,9 

1982 

23,8 

24,3 


25,2 

25,8 


25,0 

25,9 


24,3 

25,5 


23,9 

23,7 


21,6 

22,9 


21,6 

22,1 


19,2 

21,5 


19,9 

20,1 


17,4 

19,8 


20,3 

20,3 


18,9 

21,4 


18,8 

20,3 


17,5 

20,8 


18,7 

20,8 


19,7 

21,8 


19,7 

20,8 


21,6 

22,3 


20,6 

21,5 


22,9 

23,7 


22,4 

24,3 


23,9 

24,7 


23,8 

23,8 

1979 

22,9 

24,0 

1983 

25,9 

26,4 


24,5 

25,3 


25,9 

26,6 


23,2 

24,2 


24,1 

23,5 


21,8 

23,2 


22,6 

18,9 


19,3 

22,3 


20,9 

18,0 


16,6 

19,6 


16,9 

15,3 


16,5 

19,2 


17,2 

14,7 


18,8 

21,7 


17,9 

14,4 


18,1 

20,5 


17,1 

16,2 


22,0 

22,5 


20,4 

19,9 


21,7 

22,5 


23,5 

22,6 


24,1 

24,5 


24,5 

23,3 
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5. Temperaturas Médias Mensais (conh) 


Ano 

Cananéia 

Ubatuba 

Ano 

Cananéia 

Ubatuba 

1984 

26,2 

25,6 

1985 

24,0 

23,8 


26,6 

25,6 


25,5 

26,2 


24,7 

23,3 


25,3 

25,1 


22,2 

19,1 


23,8 

24,5 


21,8 

19,4 


20,1 

21,6 


19,5 

20,1 


18,0 

19,8 


18,3 

19,0 


18,0 

19,8 


16,2 

19,0 


19,1 

20,1 


18,3 

18,3 


19,2 

20,2 


21,4 

22,0 


21,6 

22,2 


22,3 

22,5 


22,6 

22,9 


23,0 

23,1 


24,0 

23,9 


6. Salários 

Salários, em 1979 (em francos suíços), para quatro profissões, em 30 cidades de 
diferentes países. 

Fonte:" Prices and SalariesAround The World", 1979/1980. União dos Bancos 


Suíços, Zurique. 


Cidade 

Prof. Sec. 

Mecânico 

Administrador 

Eng. Eletr. 

Amsterdã 

34.125 

26.542 

59.280 

47.730 

Atenas 

11.025 

12.456 

31.980 

18.870 

Bogotá 

4.725 

3.806 

14.040 

14.430 

Bruxelas 

28.350 

25.528 

59.280 

33.855 

Buenos Aires 

5.775 

6.574 

21.060 

36.075 

Caracas 

11.550 

20.068 

45.240 

42.180 

Chicago 

33.600 

39.790 

60.060 

48.285 

Cid. México 

6.825 

8.304 

28.860 

22.200 

Dublin 

18.375 

13.840 

23.400 

25.530 

Estocolmo 

28.875 

25.950 

54.600 

33.855 

Genebra 

56.700 

37.022 

71.760 

53.835 

Hong-Kong 

11.550 

5.822 

20.280 

17.205 

Istambul 

4.725 

6.228 

13.260 

12.210 

Londres 

20.745 

17.646 

31.200 

21.090 

Los Angeles 

32.550 

36.330 

59.280 

46.065 

Madri 

14.700 

12.110 

32.760 

31.635 

Manila 

2.100 

1.730 

20.280 

4.440 

Milão 

12.600 

13.494 

17.160 

31.080 

Montreal 

29.400 

23.528 

51.480 

34.410 

Nova Iorque 

27.300 

32.870 

67.080 

53.280 

Paris 

24.150 

15.916 

40.560 

43.845 

Rio de Janeiro 

7.350 

8.650 

53.040 

42.735 

San Francisco 

32.025 

39.946 

65.520 

46.065 

São Paulo 

9.450 

11.072 

74.470 

29.970 

Singapura 

8.925 

5.190 

24.960 

8.325 

Sydney 

28.350 

20.068 

34.320 

31.080 

Tel Aviv 

7.875 

9.688 

14.040 

14.430 

Tóquio 

30.450 

16.954 

63.180 

34.410 

Toronto 

29.925 

25.950 

44.460 

39.960 

Zurique 

52.500 

34.600 

78.000 

55.500 
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7. Estatísticas sobre Veículos 

Dados sobre 30 veículos novos, nacionais (N) e importados (I) em março de 1999. 
Preço em dólares, comprimento em metros e motor em CV. 

Fonte: Folha deS. Paulo, 14/3/1999. 


Veículo 

Preço 

Comprimento 

Motor 

N/l 

Asia Towner 

9.440 

3,36 

40 

1 

Audi A3 

38.850 

4,15 

125 

1 

Chevrolet Astra 

10.532 

4,11 

110 

N 

Chevrolet Blazer 

16.346 

4,60 

106 

N 

Chevrolet Corsa 

6.176 

3,73 

60 

N 

Chevrolet Tigra 

12.890 

3,92 

100 

1 

Chevrolet Vectra 

13.140 

4,47 

110 

N 

Chrysler Neon 

31.640 

4,36 

115 

1 

Dodge Dakota 

11.630 

4,98 

121 

N 

Fiat Fiorino 

6.700 

4,16 

76 

N 

Fiat Marea 

12.923 

4,39 

127 

N 

Fiat Uno Mille 

5.257 

3,64 

57 

N 

Fiat Palio 

6.260 

3,73 

61 

N 

Fiat Siena 

7.780 

4,10 

61 

1 

Ford Escort 

10.767 

4,20 

115 

1 

Ford Fiesta 

6.316 

3,83 

52 

N 

Ford Ka 

5.680 

3,62 

54 

N 

Ford Mondeo 

33.718 

4,56 

130 

1 

Honda Civic 

14.460 

4,45 

106 

N 

Hyundai Accent 

21.500 

4,12 

91 

1 

Peugeot 10ó 

13.840 

3,68 

50 

1 

Renault Clio 

13.700 

3,70 

74 

1 

Toyota Corolla 

15.520 

4,39 

116 

N 

Toyota Perua 

24.632 

4,40 

96 

N 

VW Gol 

6.340 

3,81 

54 

N 

VWGolf 

22.200 

4,15 

100 

1 

VW Parati 

9.300 

4,08 

69 

N 

VW Polo 

12.018 

4,14 

99 

1 

VW Santana 

11.386 

4,57 

101 

N 

VW Saveiro 

7.742 

4,38 

88 

N 


8. Produto Interno Bruto do Brasil 

Dados anuais do PIB, de 1861 a 1986; índices relativos a 1949. 


Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

1861 

4.57 

1893 

9.38 

1925 

43.64 

1957 

155.71 

1862 

5.04 

1894 

9.14 

1926 

44.83 

1958 

167.70 

1863 

5.18 

1895 

8.80 

1927 

47.51 

1959 

177.09 

1864 

5.35 

1896 

8.12 

1928 

54.28 

1960 

194.27 

1865 

5.71 

1897 

7.33 

1929 

52.51 

1961 

214.28 

1866 

5.65 

1898 

6.89 

1930 

47.99 

1962 

225.63 

1867 

5.14 

1899 

6.98 

1931 

39.45 

1963 

229.02 

1868 

5.05 

1900 

8.08 

1932 

39.40 

1964 

235.66 

1869 

5.61 

1901 

9.14 

1933 

42.44 

1965 

242.02 

1870 

6.48 

1902 

10.17 

1934 

51.18 

1966 

254.37 
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8. Produto Interno Bruto do Brasil (cont.) 


Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

1871 

6.56 

1903 

10.48 

1935 

58.04 

1967 

266.58 

1872 

6.55 

1904 

11.34 

1936 

63.79 

1968 

291.37 

1873 

6.72 

1905 

12.47 

1937 

66.35 

1969 

317.59 

1874 

7.71 

1906 

13.76 

1938 

68.54 

1970 

347.77 

1875 

7.88 

1907 

14.45 

1939 

67.43 

1971 

386.99 

1876 

7.98 

1908 

16.01 

1940 

67.53 

1972 

433.62 

1877 

7.30 

1909 

17.81 

1941 

65.07 

1973 

494.29 

1878 

7.32 

1910 

20.56 

1942 

66.03 

1974 

538.96 

1879 

7.38 

1911 

24.29 

1943 

66.30 

1975 

567.05 

1880 

7.88 

1912 

26.75 

1944 

68.24 

1976 

624.37 

1881 

7.62 

1913 

26.00 

1945 

75.01 

1977 

652.71 

1882 

6.86 

1914 

22.91 

1946 

84.48 

1978 

683.46 

1883 

6.65 

1915 

20.84 

1947 

87.30 

1979 

749.82 

1884 

6.54 

1916 

21.07 

1948 

93.76 

1980 

799.61 

1885 

7.02 

1917 

21.96 

1949 

100.00 

1981 

772.85 

1886 

8.07 

1918 

24.60 

1950 

106.44 

1982 

779.94 

1887 

8.94 

1919 

28.47 

1951 

112.83 

1983 

760.20 

1888 

9.25 

1920 

30.39 

1952 

115.70 

1984 

803.53 

1889 

9.59 

1921 

31.23 

1953 

118.59 

1985 

869.90 

1890 

9.64 

1922 

33.76 

1954 

130.57 

1986 

941.26 

1891 

9.35 

1923 

39.11 

1955 

139.59 



1892 

9.15 

1924 

43.60 

1956 

144.05 




9. Mercado 

Preços de fechamento de ações da Telebrás (multiplicados por 1000) e índice diário da Bolsa 
de Valores de São Paulo (dividido por 100), de l s de janeiro de 1995 a 29 de junho de 1995. 
Fonte: Bolsa de Valores de São Paulo. 


Mês 

Dia 

Telebrás 

índice 

Mês 

Dia 

Telebrás 

índice 

Mês 

Dia 

Telebrás 

índice 

Jan. 

2 

34,99 

43,19 

Fev. 

1 

31,34 

39,90 

Mar. 

2 

20,96 

29,89 


3 

33,31 

40,98 


2 

30,78 

38,98 


3 

21,42 

29,88 


4 

32,09 

39,68 


3 

31,44 

39,44 


6 

20,40 

28,67 


5 

32,56 

40,37 


6 

30,59 

38,30 


7 

18,43 

26,16 


6 

30,31 

38,27 


7 

28,63 

36,37 


8 

16,84 

23,63 


9 

28,91 

36,28 


8 

27,60 

35,56 


9 

15,06 

21,38 


10 

26,10 

32,70 


9 

26,38 

34,01 


10 

21,05 

26,86 


11 

28,25 

34,99 


10 

25,26 

33,08 


13 

20,77 

26,71 


12 

30,41 

38,41 


13 

24,98 

32,95 


14 

23,30 

30,17 


13 

32,00 

41,04 


14 

24,56 

31,92 


15 

21,99 

29,39 


16 

31,25 

40,56 


15 

23,02 

30,69 


16 

23,75 

31,42 


17 

32,37 

42,10 


16 

20,96 

28,64 


17 

22,08 

29,81 


18 

30,87 

40,79 


17 

22,45 

30,23 


20 

21,14 

28,70 


19 

28,63 

38,09 


20 

21,61 

29,62 


21 

22,45 

30,06 


20 

29,56 

38,62 


21 

19,74 

27,93 


22 

22,36 

30,04 


23 

28,44 

37,58 


22 

20,49 

28,72 


23 

23,67 

31,46 


24 

29,28 

38,40 


23 

23,02 

32,17 


24 

25,63 

33,61 


26 

29,84 

39,27 


24 

23,48 

32,71 


27 

25,73 

33,72 


27 

28,35 

37,84 






28 

24,61 

32,56 


30 

27,32 

35,81 






29 

24,51 

31,98 


31 

30,41 

38,85 






30 

24,14 

31,26 










31 

22,64 

29,79 
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9. Mercado (cont.) 


Dia 

Telebrás 

Índice 

Mês 

Dia 

Telebrás 

índice 

Mês 

Dia 

Telebrás 

índice 

3 

22,08 

28,94 

Maio 

2 

31,23 

38,62 

Jun. 

1 

29,53 

37,74 

4 

24,33 

31,25 


3 

31,99 

39,76 


2 

30,91 

39,66 

5 

24,98 

31,80 


4 

32,41 

40,44 


5 

31,50 

40,63 

6 

25,54 

32,54 


5 

31,71 

40,08 


6 

30,36 

39,33 

7 

25,35 

31,92 


8 

30,86 

39,14 


7 

29,07 

38,08 

10 

24,79 

31,14 


9 

32,23 

40,65 


8 

29,01 

38,18 

11 

24,23 

30,18 


10 

31,90 

40,50 


9 

27,51 

36,71 

12 

23,95 

30,21 


11 

30,62 

39,51 


12 

28,16 

37,05 

17 

24,89 

31,13 


12 

30,95 

39,98 


13 

29,42 

37,89 

18 

25,82 

31,94 


15 

29,91 

38,94 


14 

27,88 

36,65 

19 

27,23 

33,31 


16 

29,63 

38,35 


16 

28,48 

37,18 

20 

27,79 

33,84 


17 

31,14 

39,64 


19 

28,57 

36,96 

24 

29,00 

35,13 


18 

31,23 

40,08 


20 

27,15 

35,77 

25 

30,13 

36,99 


19 

30,81 

39,50 


21 

27,88 

36,32 

26 

30,69 

38,26 


22 

31,99 

40,34 


22 

27,70 

35,99 

27 

31,06 

38,51 


23 

32,56 

40,88 


23 

27,74 

35,86 

28 

30,86 

38,14 


24 

33,31 

41,00 


26 

27,65 

35,37 





25 

32,37 

40,19 


27 

28,80 

36,61 





26 

30,27 

39,05 


28 

29,21 

37,15 





29 

30,91 

38,96 


29 

28,62 

36,78 





30 

28,71 

37,07 









31 

28,98 

37,21 






10. índices de Placa Bacteriana 

M edidas de um índice de placa bacteriana obtidas de 26 crianças em idade pré-esco¬ 
lar, antes e depois do uso de uma escova experimental e de uma escova convencional. 
Fonte: Singer e Andrade (1997). 



Tipo de Escova 


Hugger 

Convencional 

Sujeito 

Sexo 

Antes da 
Escovação 

Depois da 
Escovação 

Antes da 
Escovação 

Depois da 
Escovação 

1 

F 

2,18 

0,43 

1,20 

0,75 

2 

F 

2,05 

0,08 

1,43 

0,55 

3 

F 

1,05 

0,18 

0,68 

0,08 

4 

F 

1,95 

0,78 

1,45 

0,75 

5 

F 

0,28 

0,03 

0,50 

0,05 

6 

F 

2,63 

0,23 

2,75 

1,60 

7 

F 

1,50 

0,20 

1,25 

0,65 

8 

F 

0,45 

0,00 

0,40 

0,13 

9 

F 

0,70 

0,05 

1,18 

0,83 

10 

F 

1,30 

0,30 

1,43 

0,58 

11 

F 

1,25 

0,33 

0,45 

0,38 

12 

F 

0,18 

0,00 

1,60 

0,63 

13 

F 

3,30 

0,90 

0,25 

0,25 


















506 


ESTATÍSTICA BÁSICA 


10. índices de Placa Bacteriana (cont.) 



Tipo de Escova 


Hugger 

Convencional 

Sujeito 

Sexo 

Antes da 
Escovação 

Depois da 
Escovação 

Antes da 
Escovação 

Depois da 
Escovação 

14 

F 

1,40 

0,24 

2,98 

1,03 

15 

M 

0,90 

0,15 

3,35 

1,58 

16 

M 

0,58 

0,10 

1,50 

0,20 

17 

M 

2,50 

0,33 

4,08 

1,88 

18 

M 

2,25 

0,33 

3,15 

2,00 

19 

M 

1,53 

0,53 

0,90 

0,25 

20 

M 

1,43 

0,43 

1,78 

0,18 

21 

M 

3,48 

0,65 

3,50 

0,85 

22 

M 

1,80 

0,20 

2,50 

1,15 

23 

M 

1,50 

0,25 

2,18 

0,93 

24 

M 

2,55 

0,15 

2,68 

1,05 

25 

M 

1,30 

0,05 

2,73 

0,85 

26 

M 

2,65 

0,25 

3,43 

0,88 













TABELAS 


As tabelas a seguir são, em geral, auto-explicativas, mas o uso de cada uma está explica¬ 
do no texto. O Manual Explicativo de Pereira e Bussab (1974) pode ser consultado para 
mais explicações. 

1. As tabelas I a V11 são reproduzidas de Pereira e B ussab (1974), com permissão da 
Editora e autores. 

2. A tabela VIII foi elaborada usando o SPIus e baseada em Lehmann (1975). 

3. As tabelas IX e X são adaptadas de Pereira e Bussab (1974), com permissão da 
Editora e autores. 
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14 — 15 — 16 19 - 18-17 
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Tabela III — Distribuição Normal Padrão 
Z~ N(0,1) 

Corpo da tabela dá a probabilidade p, tal que p = P(0 <Z<ZJ 


0 z c z 


parte in- 




Segunda decima 

1 de Z c 





parte in- 

teira e 











teira e 

primeira 

decimal 











primeira 

decimal 

de Z c 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

de Z c 


P = 0 


0,0 

00000 

00399 

00798 

01197 

01595 

01994 

02392 

02790 

03188 

03586 

0,0 

0,1 

03983 

04380 

04776 

05172 

05567 

05962 

06356 

06749 

07142 

07535 

0,1 

0,2 

07926 

08317 

08706 

09095 

09483 

09871 

10257 

10642 

11026 

11409 

0,2 

0,3 

11791 

12172 

12552 

12930 

13307 

13683 

14058 

14431 

14803 

15173 

0,3 

0,4 

15542 

15910 

16276 

16640 

17003 

17364 

17724 

18082 

18439 

18793 

0,4 

0,5 

19146 

19497 

19847 

20194 

20540 

20884 

21226 

21566 

21904 

22240 

0,5 

0,6 

22575 

22907 

23237 

23565 

23891 

24215 

24537 

24857 

25175 

25490 

0,6 

0,7 

25804 

26115 

26424 

26730 

27035 

27337 

27637 

27935 

28230 

28524 

0,7 

0,8 

28814 

29103 

29389 

29673 

29955 

30234 

30511 

30785 

31057 

31327 

0,8 

0,9 

31594 

31859 

32121 

32381 

32639 

32894 

33147 

33398 

33646 

33891 

0,9 

1,0 

34134 

34375 

34614 

34850 

35083 

35314 

35543 

35769 

35993 

36214 

1,0 

1,1 

36433 

36650 

36864 

37076 

37286 

37493 

37698 

37900 

38100 

38298 

1,1 

1,2 

38493 

38686 

38877 

39065 

39251 

39435 

39617 

39796 

39973 

40147 

1,2 

1,3 

40320 

40490 

40658 

40824 

40988 

41149 

41309 

41466 

41621 

41774 

1,3 

1,4 

41924 

42073 

42220 

42364 

42507 

42647 

42786 

42922 

43056 

43189 

1,4 

1,5 

43319 

43448 

43574 

43699 

43822 

43943 

44062 

44179 

44295 

44408 

1,5 

1,6 

44520 

44630 

44738 

44845 

44950 

45053 

45154 

45254 

45352 

45449 

1,6 

1,7 

45543 

45637 

45728 

45818 

45907 

45994 

46080 

46164 

46246 

46327 

1,7 

1,8 

46407 

46485 

46562 

46638 

46712 

46784 

46856 

46926 

46995 

47062 

1,8 

1,9 

47128 

47193 

47257 

47320 

47381 

47441 

47500 

47558 

47615 

47670 

1,9 

2,0 

47725 

47778 

47831 

47882 

47932 

47982 

48030 

48077 

48124 

48169 

2,0 

2,1 

48214 

48257 

48300 

48341 

48382 

48422 

48461 

48500 

48537 

48574 

2,1 

2,2 

48610 

48645 

48679 

48713 

48745 

48778 

48809 

48840 

48870 

48899 

2,2 

2,3 

48928 

48956 

48983 

49010 

49036 

49061 

49086 

49111 

49134 

49158 

2,3 

2,4 

49180 

49202 

49224 

49245 

49266 

49286 

49305 

49324 

49343 

49361 

2,4 

2,5 

49379 

49396 

49413 

49430 

49446 

49461 

49477 

49492 

49506 

49520 

2,5 

2,6 

49534 

49547 

49560 

49573 

49585 

49598 

49609 

49621 

49632 

49643 

2,6 

2,7 

49653 

49664 

49674 

49683 

49693 

49702 

49711 

49720 

49728 

49736 

2,7 

2,8 

49744 

49752 

49760 

49767 

49774 

49781 

49788 

49795 

49801 

49807 

2,8 

2,9 

49813 

49819 

49825 

49831 

49836 

49841 

49846 

49851 

49856 

49861 

2,9 

3,0 

49865 

49869 

49874 

49878 

49882 

49886 

49889 

49893 

49897 

49900 

3,0 

3,1 

49903 

49906 

49910 

49913 

49916 

49918 

49921 

49924 

49926 

49929 

3,1 

3,2 

49931 

49934 

49936 

49938 

49940 

49942 

49944 

49946 

49948 

49950 

3,2 

3,3 

49952 

49953 

49955 

49957 

49958 

49960 

49961 

49962 

49964 

49965 

3,3 

3,4 

49966 

49968 

49969 

49970 

49971 

49972 

49973 

49974 

49975 

49976 

3,4 

3,5 

49977 

49978 

49978 

49979 

49980 

49981 

49981 

49982 

49983 

49983 

3,5 

3,6 

49984 

49985 

49985 

49986 

49986 

49987 

49987 

49988 

49988 

49989 

3,6 

3,7 

49989 

49990 

49990 

49990 

49991 

49991 

49992 

49992 

49992 

49992 

3,7 

3,8 

49993 

49993 

49993 

49994 

49994 

49994 

49994 

49995 

49995 

49995 

3,8 

3,9 

49995 

49995 

49996 

49996 

49996 

49996 

49996 

49996 

49997 

49997 

3,9 

4,0 

49997 

49997 

49997 

49997 

49997 

49997 

49998 

49998 

49998 

49998 

4,0 

4,5 

49999 

50000 

50000 

50000 

50000 

50000 

50000 

50000 

50000 

50000 

4,5 
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Tabela VII — Números Aleatórios 


09 

26 

29 

85 

11 
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Tabela VIII — Distribuição de Mann-Whitney U s 
O corpo da tabela dá as probabilidades P(U 5 =s u). 


m u 

n = 3 

n = 4 

n = 5 

n = 6 

n = 7 

n =8 

n = 9 

n= 10 

3 0 

0500 

0286 

0179 

0119 

0083 

0061 

0045 

0035 

1 

1000 

0571 

0357 

0238 

0167 

0121 

0091 

0070 

2 

2000 

1143 

0714 

0476 

0333 

0242 

0182 

0140 

3 

3500 

2000 

1250 

0833 

0583 

0424 

0318 

0245 

4 

5000 

3143 

1964 

1310 

0917 

0667 

0500 

0385 

5 

6500 

4286 

2857 

1905 

1333 

0970 

0727 

0559 

6 

8000 

5714 

3929 

2738 

1917 

1394 

1045 

0804 

7 

9000 

6857 

5000 

3571 

2583 

1879 

1409 

1084 

8 

9500 

8000 

6071 

4524 

3333 

2485 

1864 

1434 

9 

1,0000 

8857 

7143 

5476 

4167 

3152 

2409 

1853 

10 


9429 

8036 

6429 

5000 

3879 

3000 

2343 

11 


9714 

8750 

7262 

5833 

4606 

3636 

2867 

12 


1,0000 

9286 

8095 

6667 

5394 

4318 

3462 

13 



9643 

8690 

7417 

6121 

5000 

4056 

14 



9821 

9167 

8083 

6848 

5682 

4685 

15 



1,0000 

9524 

8667 

7515 

6364 

5315 

4 0 


0143 

0079 

0048 

0030 

0020 

0014 

0010 

1 


0286 

0159 

0095 

0061 

0040 

0028 

0020 

2 


0571 

0317 

0190 

0121 

0081 

0056 

0040 

3 


1000 

0556 

0333 

0212 

0141 

0098 

0070 

4 


1714 

0952 

0571 

0364 

0242 

0168 

0120 

5 


2429 

1429 

0857 

0545 

0364 

0252 

0180 

6 


3429 

2063 

1286 

0818 

0545 

0378 

0270 

7 


4429 

2778 

1762 

1152 

0768 

0531 

0380 

8 


5571 

3651 

2381 

1576 

1071 

0741 

0529 

9 


6571 

4524 

3048 

2061 

1414 

0993 

0709 

10 


7571 

5476 

3810 

2636 

1838 

1301 

0939 

11 


8286 

6349 

4571 

3242 

2303 

1650 

1199 

12 


9000 

7222 

5429 

3939 

2848 

2070 

1518 

13 


9429 

7937 

6190 

4636 

3414 

2517 

1868 

14 


9714 

8571 

6952 

5364 

4040 

3021 

2268 

15 


9857 

9048 

7619 

6061 

4667 

3552 

2697 

16 


1,0000 

9444 

8238 

6758 

5333 

4126 

3177 

17 



9683 

8714 

7364 

5960 

4699 

3666 

18 



9841 

9143 

7939 

6586 

5301 

4196 

19 



9921 

9429 

8424 

7152 

5874 

4725 

20 



1,0000 

9667 

8848 

7697 

6448 

5275 

Obs.: Todas as entradas (com exceção de 1,0000) devem ser precedidas de 0, 
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Tabela VIII 

— Distribuição de Mann-Whitney (continuação) 



m u 

n = 5 

n = 6 

n = 7 

n = 8 

n = 9 

n= 10 

m u 

n =7 

n = 8 

n = 9 

n= 10 

5 0 

0040 

0022 

0013 

0008 

0005 

0003 

7 0 

0003 

0002 

0001 

0001 

1 

0079 

0043 

0025 

0016 

0010 

0007 

1 

0006 

0003 

0002 

0001 

2 

0159 

0087 

0051 

0031 

0020 

0013 

2 

0012 

0006 

0003 

0002 

3 

0278 

0152 

0088 

0054 

0035 

0023 

3 

0020 

0011 

0006 

0004 

4 

0476 

0260 

0152 

0093 

0060 

0040 

4 

0035 

0019 

0010 

0006 

5 

0754 

0411 

0240 

0148 

0095 

0063 

5 

0055 

0030 

0017 

0010 

6 

1111 

0628 

0356 

0225 

0145 

0097 

6 

0087 

0047 

0026 

0015 

7 

1548 

0887 

0530 

0326 

0210 

0140 

7 

0131 

0070 

0039 

0023 

8 

2103 

1234 

0745 

0466 

0300 

0200 

8 

0189 

0103 

0058 

0034 

9 

2738 

1645 

1010 

0637 

0415 

0276 

9 

0265 

0145 

0082 

0048 

10 

3452 

2143 

1338 

0855 

0559 

0376 

10 

0364 

0200 

0115 

0068 

11 

4206 

2684 

1717 

1111 

0734 

0496 

11 

0487 

0270 

0156 

0093 

12 

5000 

3312 

2159 

1422 

0949 

0646 

12 

0641 

0361 

0209 

0125 

13 

5794 

3961 

2652 

1772 

1199 

0823 

13 

0825 

0469 

0274 

0165 

14 

6548 

4654 

3194 

2176 

1489 

1032 

14 

1043 

0603 

0356 

0215 

15 

7262 

5346 

3775 

2618 

1818 

1272 

15 

1297 

0760 

0454 

0277 

16 

7897 

6039 

4381 

3108 

2188 

1548 

16 

1588 

0946 

0571 

0351 

17 

8452 

6688 

5000 

3621 

2592 

1855 

17 

1914 

1159 

0708 

0439 

18 

8889 

7316 

5619 

4165 

3032 

2198 

18 

2279 

1405 

0879 

0544 

19 

9246 

7857 

6225 

4716 

3497 

2567 

19 

2675 

1678 

1052 

0665 

20 

9524 

8355 

6806 

5284 

3986 

2970 

20 

3100 

1984 

1261 

0806 



21 

3552 

2317 

1496 

0976 

6 0 


0011 

0006 

0003 

0002 

0001 

22 

4024 

2679 

1755 

1148 

1 


0022 

0012 

0007 

0004 

0002 

23 

4508 

3063 

2039 

1349 

2 


0043 

0023 

0013 

0008 

0005 

24 

5000 

3472 

2349 

1574 

3 


0076 

0041 

0023 

0014 

0009 

25 

5492 

3894 

2680 

1819 

4 


0130 

0070 

0040 

0024 

0015 

26 

5976 

4333 

3032 

2087 

5 


0206 

0111 

0063 

0038 

0024 

27 

6448 

4775 

3403 

2374 

6 


0325 

0175 

0100 

0060 

0037 

28 

6900 

5225 

3788 

2681 

7 


0465 

0256 

0147 

0088 

0055 

29 

7325 

5667 

4185 

3004 

8 


0660 

0367 

0213 

0128 

0080 

30 

7721 

6106 

4591 

3345 

9 


0898 

0507 

0296 

0180 

0112 



10 


1201 

0688 

0406 

0248 

0156 



11 


1548 

0903 

0539 

0332 

0210 



12 


1970 

1171 

0709 

0440 

0280 



13 


2424 

1474 

0906 

0567 

0363 



14 


2944 

1830 

1142 

0723 

0467 



15 


3496 

2226 

1412 

0905 

0589 



16 


4091 

2669 

1725 

1119 

0736 



17 


4686 

3141 

2068 

1361 

0903 



18 


5314 

3654 

2454 

1638 

1999 



19 


5909 

4178 

2864 

1942 

1317 



20 


6504 

4726 

3310 

2280 

1566 



21 


7056 

5274 

3773 

2643 

1838 



22 


7576 

5822 

4259 

3035 

2139 



23 


8030 

6346 

4749 

3445 

2461 



24 


8452 

6859 

5251 

3878 

2811 



25 


8799 

7331 

5741 

4320 

3177 



26 


9102 

7774 

6227 

4773 

3564 



27 


9340 

8170 

6690 

5227 

3962 



28 


9535 

8526 

7136 

5680 

4374 



29 


9675 

8829 

7546 

6122 

4789 



30 


9794 

9097 

7932 

6555 

5211 
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Tabela VIII 

— Distribuição de Mann 

-Whitney (continuação) 


m u 

n =8 

n = 9 

n= 10 

m u 

n =9 

n= 10 

m u 

17= 10 

8 0 

0001 

0000 

0000 

9 0 

0000 

0000 

10 0 

0000 

1 

0002 

0001 

0000 

1 0000 

0000 

1 

0000 

2 

0003 

0002 

0001 

2 

0001 

0000 

2 

0000 

3 

0005 

0003 

0002 

3 

0001 

0001 

3 

0000 

4 

0009 

0005 

0003 

4 

0002 

0001 

4 

0001 

5 

0015 

0008 

0004 

5 

0004 

0002 

5 

0001 

6 

0023 

0012 

0007 

6 

0006 

0003 

6 

0002 

7 

0035 

0019 

0010 

7 

0009 

0005 

7 

0002 

8 

0052 

0028 

0015 

8 

0014 

0007 

8 

0004 

9 

0074 

0039 

0022 

9 

0020 

0011 

9 

0005 

10 

0103 

0056 

0031 

10 

0028 

0015 

10 

0008 

11 

0141 

0076 

0043 

11 

0039 

0021 

11 

0010 

12 

0190 

0103 

0058 

12 

0053 

0028 

12 

0014 

13 

0249 

0137 

0078 

13 

0071 

0038 

13 

0019 

14 

0325 

0180 

0103 

14 

0094 

0051 

14 

0026 

15 

0415 

0232 

0133 

15 

0122 

0066 

15 

0034 

16 

0524 

0296 

0171 

16 

0157 

0086 

16 

0045 

17 

0653 

0372 

0217 

17 

0200 

0110 

17 

0057 

18 

0803 

0464 

0273 

18 

0252 

0140 

18 

0073 

19 

0974 

0570 

0338 

19 

0313 

0175 

19 

0093 

20 

1172 

0694 

0416 

20 

0385 

0217 

20 

0116 

21 

1393 

0836 

0506 

21 

0470 

0267 

21 

0144 

22 

1641 

0998 

0610 

22 

0567 

0326 

22 

0177 

23 

1911 

1179 

0729 

23 

0680 

0394 

23 

0216 

24 

2209 

1383 

0864 

24 

0807 

0474 

24 

0262 

25 

2527 

1606 

1015 

25 

0951 

0564 

25 

0315 

26 

2869 

1852 

1185 

26 

1112 

0667 

26 

0376 

27 

3227 

2117 

1371 

27 

1290 

0782 

27 

0446 

28 

3605 

2404 

1577 

28 

1487 

0912 

28 

0526 

29 

3992 

2707 

1800 

29 

1701 

1055 

29 

0615 

30 

4392 

3029 

2041 

30 

1933 

1214 

30 

0716 

31 

4796 

3365 

2299 

31 

2181 

1388 

31 

0827 

32 

5204 

3715 

2574 

32 

2447 

1577 

32 

0952 

33 

5608 

4074 

2863 

33 

2729 

1781 

33 

1088 

34 

6008 

4442 

3167 

34 

3024 

2001 

34 

1237 

35 

6395 

4813 

3482 

35 

3332 

2235 

35 

1399 

36 

6773 

5187 

3809 

36 

3652 

2483 

36 

1575 

37 

7131 

5558 

4143 

37 

3981 

2745 

37 

1763 

38 

7473 

5926 

4484 

38 

4317 

3019 

38 

1965 

39 

7791 

6285 

4827 

39 

4657 

3304 

39 

2179 

40 

8089 

6635 

5173 

40 

5000 

3598 

40 

2406 











VJ 

0.005 

0 

0 

0 

0 

1 

2 

4 

6 

8 

10 

13 

16 

20 

24 

28 

33 

38 

44 

49 

55 

62 

69 

76 
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Tabela IX — Distribuição de Wilcoxon T + 

O corpo da tabela dá os valores w p tais que P(T + <W p ) =p 



W 0.025 

^.05 

1/1/ 

0.10 


%.005 

%.o, 

w 

0.025 

1/1/ 

0.05 

w 

vv 0.10 

0 

0 

0 

1 

n = 27 

84 

94 

108 

120 

135 

0 

0 

1 

3 

28 

92 

102 

117 

131 

146 

0 

1 

3 

4 

29 

101 

111 

127 

141 

158 

1 

3 

4 

6 

30 

110 

121 

138 

152 

170 

2 

4 

6 

9 

31 

119 

131 

148 

164 

182 

4 

6 

9 

11 

32 

129 

141 

160 

176 

195 

6 

9 

11 

15 

33 

139 

152 

171 

188 

208 

8 

11 

14 

18 

34 

149 

163 

183 

201 

222 

10 

14 

18 

22 

35 

160 

175 

196 

214 

236 

13 

18 

22 

27 

36 

172 

187 

209 

228 

251 

16 

22 

26 

32 

37 

184 

199 

222 

242 

266 

20 

26 

31 

37 

38 

196 

212 

236 

257 

282 

24 

30 

36 

43 

39 

208 

225 

250 

272 

298 

28 

35 

42 

49 

40 

221 

239 

265 

287 

314 

33 

41 

48 

56 

41 

235 

253 

280 

303 

331 

38 

47 

54 

63 

42 

248 

267 

295 

320 

349 

44 

53 

61 

70 

43 

263 

282 

311 

337 

366 

50 

59 

68 

78 

44 

277 

297 

328 

354 

385 

56 

67 

76 

87 

45 

292 

313 

344 

372 

403 

63 

74 

84 

95 

46 

308 

329 

362 

390 

423 

70 

82 

92 

105 

47 

324 

346 

379 

408 

442 

77 

90 

101 

114 

48 

340 

363 

397 

428 

463 

85 

99 

111 

125 

49 

357 

381 

416 

447 

483 


50 

374 

398 

435 

467 

504 









0,05 

975 

842 

708 

624 

563 

519 

483 

454 

430 

409 

391 

375 

361 

349 

338 

327 

318 

309 

301 

294 
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Tabela X — Distribuição de Kolmogorov-SmirnovD 
O corpo da tabela dá os valores D c tais que P(|D| & D c ) = p. 


0,02 

0,01 

n 

0,05 

0,02 

0,01 

n 

0,05 

0,02 

0,01 

990 

995 

21 

287 

321 

344 

41 

208 

232 

249 

900 

929 

22 

281 

314 

337 

42 

205 

229 

246 

785 

829 

23 

275 

307 

330 

43 

203 

227 

243 

689 

734 

24 

269 

301 

323 

44 

201 

224 

241 

627 

669 

25 

264 

295 

317 

45 

198 

222 

238 

577 

617 

26 

259 

290 

311 

46 

196 

219 

235 

538 

576 

27 

254 

284 

305 

47 

194 

217 

233 

507 

542 

28 

250 

279 

300 

48 

192 

215 

231 

480 

513 

29 

246 

275 

295 

49 

190 

213 

228 

457 

489 

30 

242 

270 

290 

50 

188 

211 

226 

437 

468 

31 

238 

266 

285 





419 

449 

32 

234 

262 

281 

>50 

1,358 

1,517 

1,628 

404 

432 

33 

231 

258 

277 

Vn 

Vn 

Vn 

390 

418 

34 

227 

254 

273 





377 

404 

35 

224 

251 

269 





366 

392 

36 

221 

247 

265 

Expressão qeral para n > 

50 

355 

381 

37 

218 

244 

262 



i D~ 


346 

371 

38 

215 

241 

258 


n V 

-!°g= -j 


337 

361 

39 

213 

238 

255 


D c =- 

'(2n 


329 

352 

40 

210 

235 

252 
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Capítulo 2 


1 . (a) razão (e) razão 

(b) ordinal (f) nominal 

(c) razão (g) intervalar 

(d) intervalar 

3. População urbana: 


Número de habitantes 

n i 

f í 

Menos de 500.000 

3 

0,1 1 1 1 

500.001 a 1.000.000 

2 

0,0740 

1.000.001 a 5.000.000 

15 

0,5556 

5.000.001 a 10.000.000 

4 

0,1481 

Mais de 10.000.000 

3 

0,1 1 1 1 

Total 

27 

1,0000 


Densidade populacional: 


Densidade (hab./km 2 ) 

n i 

f í 

Menos de 10 

9 

0,3333 

10 a 30 

5 

0,1852 

30 a 50 

4 

0,1481 

50 a 100 

6 

0,2222 

Mais de 100 

3 

0,1 1 1 1 

Total 

27 

1,0000 


6. (a) Histograma 



Taxa de crescimento 


(b) Gráfico de dispersão unidimensional 


2 4 6 8 

Taxa de crescimento 


8. Histograma 



População (x 10000) 

Ramo-e-folhas 

Decimal point is 1 place to the right of the colon 
4:6 

5 : 0046 

6 : 234778 
7:35 

8 : 045 

9 : 2 
10:22 
11:69 
12 : 

13:06 

14: 

15: 2 
16: 

17: 

18: 8 
19: 

20 : 1 
21:1 
22 : 5 

Valores maiores: 556.9998,8 
Gráfico de dispersão unidimensional 
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Gráfico de dispersão unidimensional 


••m mmm •« •«••••• • •••• 


50 100 150 200 

População x 10000 
(sem as duas maiores observações) 

11. (a) Zona Urbana: 




(b) Os histogramas indicam que os aluguéis dos imó¬ 
veis localizados na zona rural estão mais concen¬ 
trados entre os valores 2 e 5, diferentemente da 
zona urbana. Também se percebe que valores en¬ 
tre 10 e 15 estão presentes apenas na amostra 
retirada da zona urbana. Além disso, a distribui¬ 
ção para a zona urbana é menos assimétrica do 
que a distribuição para a zona rural. 


Idade 

rij 

f. 

F i 

[20, 25) 

2 

0,0555 

0,0555 

[25, 30) 

6 

0,1668 

0,2223 

[30, 35) 

10 

0,2778 

0,5001 

[35, 40) 

8 

0,2222 

0,7223 

[40, 45) 

8 

0,2222 

0,9445 

[45, 50) 

2 

0,0555 

1,0000 

Total 

36 

1,0000 




(c) 25% - /' « 31; 
50% - i ~ 35; 
75% - / « 42. 


3 80- 
=> 

E 

§ 60- 
E 

<D 

05 ir . 

_g 40- 
c 

05 

u 

£ 20 - 


20 25 30 35 40 45 50 

Idade 


2 0. Ramo -e-folhas para a variável CO: 

4:77 
5: 12 

5:55677789 

6:1111122222222233333444444 
6:5666677777899999999 
7:00122233444 
7:5566777778888899999999 

8 : 012334 

8:55678999 

9 : 0114 
9:557 

10 : 1333 
10 : 8 
11: 469 
12 : 05 
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Capítulo 3 


1 . (a) 0,66 

(b) 0,5 

(c) 0,8393 
(e) 330 

2. X = 2,6; md = 2,6; dp = 0,04 

6 . (a) 2 

(b) 2 

(c) X = 2,11, supondo-se o valor 6 para "mais que 5". 

8. _ 37_ 

35 

31 40 

21 49 

dj = 9; di = 14; ds = 14; aproximadamente normal. 

9. £7(0,1) = 13,5; q( 0,9) = 79,0. 

1 1. Distribuição assimétrica à direita. 

Desenho esquemático (box plot) dos solários dos funcioná¬ 
rios da Companhia Milsa. 


20 - 

5 

Í2. 15 - 
o 


5 - 


16. (a) Histograma das vendas semanais de vendedores de 
gêneros alimentícios 



Vendas semanais (em S.M.) 


(b) X = 51,2 

(c) S = 6,62 

(d) 94% 

(e) md = 52,5 

18. (a) £7(0,1) = 92,4, 

(b) £7(0,2) = 102,1, 

(c) dj = 105,7, q 2 = 135,8, q 3 = 208,6. 

20. (b) x = 3,65; var = 28,19; dp = 5,31. 

(c) <7 X =2, <j 2 = 3,25. 

(d) Média dobra e variância multiplicada por 4. 

(e) Média e mediana aumentadas de 2; variância 
não se altera. 

22. (o) Receber menos do que 5.000. 

(b) empresa B. 

24. (c) média = 1,75; md = 1,6 
(d) var = 0,963; dp = 0,98 
íe) £7 x = U 

26. média = 6,9; var = 6,19; 
moda = 9; md = 7; q 3 = 4,8. 

28. (a) não; x = 22,5. 

(b) X - 22 =0,48; 2 dp(X)/Vn = 1,08; logo, a campa¬ 
nha não surtiu efeito. 

(c) Histograma da idade média dos candidatos 



30. F » 1 

32 . SJ = 32,5; t = 0,03; desempenhos semelhantes. 

37. (a) X = 0,305; var = 0,218 

(b) x = proporção dos empregados da capital 
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(c) Histograma de X 

0.6 - 

-8 0.4 - 
a 

— - 

<§ 0.2 - 

0.0 \ | | — 

-0.5 0.0 0.5 1.0 1.5 

X 

38. (a) Z é uma nota padronizada. 

(b) As notas padronizadas são: 


0,58 

0,58 

-0,18 

-0,18 

0,58 

1,35 

-0,18 

-0,18 

0,58 

-0,18 

1,35 

-0,95 

-0,95 

0,58 

0,58 

-0,95 

-0,18 

0,58 

-3,26 

-0,95 

-0,95 

-0,18 

1,35 

0,58 

0,58 


(c) z = 0; dp = 1 

(d) z =-3,26 


(e) política 

39. (a) x(0,l) = 10,84; 7(0,25) = 10,52 

40. CV(A) =20%; CV(B) =30% 


42. dam (urb) = 1.413.000; dam (rural) = 546.900 



Graf. simetria 



Dados não simétricos; pontos acima da reta u = 1/ no gráfico 
de simetria. 

48. (a) n = 120; d q = 16; A = 5,47 = 16(0,039896) 3 ' 3 . 
(b) n = 30; d q = 20.734; A = 7.600 = 

= 20.734(0,049237) 1 ' 3 . 


Capítulo 4 


1 . (b) 50% (d) 58,3% 

(c) 19,4% 

3. (b) 2,5% (d) 12,5% 

(c) 50% 

(e) Bastante modificada; maioria das pessoas que 
ganham pouco têm alta rotatividade. 

5. Existe relação, pois as probabilidades marginais não 
se repetem no interior da tabela. 

7. 27=0,67, C =0,81 

8. Problema 3: X 1 = 5,625, C = 0,351, T = 0,375. 
Problema 6: X 2 = 11,42, C = 0,075, T = 0,076. 

9. Não há diferenças entre as três empresas. 

11. (b) O gráfico indica dependência linear entre as 
variáveis. 

(c) 0,86 

(d) Porto Alegre e Fortaleza apresentam comporta¬ 
mentos diferentes dos demais. 


13. (o) 7j-i- 

o 6- 

'5 . , 

o 5- • 2. 

-g 4- • *2 

8-3- • 2 

•* 2 - . 

1-L._ i _ i _ i _ 

2.0 2.5 3.0 3.5 4.0 

Número de objetos 

(b) 0,74 

1 5. Seção e Notas de Estatística não são correlacionadas. 

18. (o) 


Estado 

Civil 


Salário 



Menos de 
10S.M. 

entre 10 
e 20 S.M. 

Mais de 
20 S.M. 

Total 

solteiro 

0,12 

0,19 

0,09 

0,40 

casado 

0,08 

0,31 

0,21 

0,60 

Total 

0,20 

0,50 

0,30 

1,00 































526 


ESTATÍSTICA BÁSICA 


(b) Considere-se a tabela do total de colunas: 


Estado 

Civil 


Salário 



Menos de 
10 S.M. 

entre 10 
e 20 S.M. 

Mais de 
20 S.M. 

Total 

solteiro 

0,60 

0,38 

0,30 

0,40 

casado 

0,40 

0,62 

0,70 

0,60 

Total 

1,00 

1,00 

1,00 

1,00 


Pelas diferenças entre as proporções marginais e as 
do interior da tabela, diz-se que existe relação entre 
as variáveis. 


20 . 



Atividade 



Costeira 

Fluvial 

Internacional 

Total 

Estatal 

5 (33,64) 

141 (129,02) 

51 (34,34) 

197 

Particular 

92 (63,64) 

231 (242,98) 

48 (64,66) 

371 


Como X 2 = 51,09, parece existir associação entre o 
tipo de atividade e a propriedade das embarcações. 


21 . X 2 = 18,5; há indicação de relação. 

22. (a) tomando porcentagens por colunas, há evidências 
de que a distribuição de respostas SIM e NAO 
não coincidem. 

(b) X 2 =33,63; há dependência. 

(c) X 2 = 7,01. 

25. Corr(X, Y) =-0,92 

28. (a) x 2 = 0,0008; logo, não há associação entre os 
resultados. 

(b) CorrfXj, X 2 ) =0, de acordo com (a) 

30. (b) v = 30,2, var(7) = 130,6; há um vendedor 
excepcional. 

(c) q 2 = 23,5 

(d) Os box píots a seguir indicam que existe alguma 
diferença entre a distribuição das vendas nas três 
diferentes zonas. Assim, não é justo aplicar um 
mesmo critério para todas as zonas. 


55 -- 
45 - 
35 - 
25 - 

15 -I -t-t -r 

1 2 3 

Zonas 



(e) Corr(T, V) = 0,71, CorrfE, V) = 0,26, logo a 
nota no teste é variável mais importante. 

(f) X = 3,76; baixa associação. 


35. Os salários da capital têm variabilidade maior e a 
distribuição mais assimétrica. As médias e medianas 
são similares. 


15- 

10 - 


Capital 


251 - 

15-- 

5-_ 1 

Interior 


15- 

10 - 

5-. 


Outra 


37. Os boxp/ots da figura abaixo mostram que a região 
sudeste tem maior mediana e também maior variabili¬ 
dade, enquanto as regiões norte e central apresen¬ 
tam variabilidades menores do que as demais. As 
distribuições são todas assimétricas. 



Capítulo 5 


1. Í2 = {(6, C), (6, R), (V, B), (1/, 1/)}, onde C = cara e 
R = coroa. 

2. Q. ={5, (5, 5), (5, 5, 5...}, onde 5 indica qualquer face 
distinta de face 5. 

4. £2 1 = {(C, C), (C, fl), (R, C), (R, fl)}, 

Q 2 = {0, 1, 2}, com to = número de cara nos dois 
lançamentos. Segue-se que £^ = {0, R} X {C, R}. 

5. a i= {(C, 1), (C, 2).(C, 6), (R, 1), (R, 2).(R, 6)} = 

= {C,R} x {1,2, 3, 4, 5,6} 


7. (a) {(C, R), (R, C), (C, C)> 

(b) uc.cn 

(c) {(C, R), (R, C), (R, R)> 

9 . (a) t P(co ( ) = 2(1/4) + 2(1/8) + 4(1/16) = 1 

t=l 

(b) P(A vencer) =(1/4) +(1/16) =5/16 =P(fi vencer) 

(c) P(AC BA.BCAB) =1/8 

10. (a) Xlo (5/6) k d/6) = (1/6)(1/(1 - 5/6)) = 1 
(b) (1/6)(5/6) 2 = 0,12 
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13. Do Problema 7: (a) 3/4 (bj 1/4 (cj 3/4 
Do Problema 12: 

PM) = 0,11, P(B) = 0,5, P[A U B) = 0,53, 

P(A n 6) = 0,08, P(A C ) = 0,89. 

17. 0,92 

18. (aj 0,56 (b) 0,67 

20. h(p r p 2 , p 3 ) = p 2 (p 2 +p 3 - p 2 p 3 ) 

22. Í1(P) = P 2 (2 - p 2 ) 

24. 0,16 

25. 0,305 

26. (aj P(H ) =0,75, P(A|H) =0,20, P(B |M) =0,30 
(b) P(A n H) = 0,15, P(A U H) = 0,925 

(cj P(M |4) = 0,538 


28. 0,60 


29. 3/28 = 0,107 


30. (aj 0,0296 

(bj 0,0298 

31. (aj 0,165 
(b) 0,132 

(cj 0,790 

32. (aj (1/2) 3 = 1/8 

(bj (0,9) 3 = 0,73 

33. (aj 0,049 
(bj 0,295 

(cj 0,463 

34. (aj 0,375 
(bj 0,292 

(cj 0,333 

35. 0,0135 


36. 0,999 


37. 0,36; 0,41; 0,23 


38. (aj 0,086 

(bj 0,736 

39. (aj 0,312 

(bj 0,58 

40. (aj 0,62 
(bj 0,21 

(cj 0,11 
(c/j 0,29 

41. (aj 0,28 
(bj 0,02 

(cj 0,68 


/ 8.300 f 

/ 8.299 \ 

(cj /13.000 \ 

í 12.999 \ 

\15.800 j 

1 15.799 ) 

\ 15.800 ) 

5.5.799 ) 


44. 0,072 

m x m-1 1 

m +n- b m+n-fa-lj 


48. h(p) = p(p 4 - p 3 - 2p 2 +2p +1) 



• P(4) =(2/3-1/2) x 1/2 =1/6 

• P(B) =1/2 x (3/4-1/4) =1/4 

• PM n B) =(2/3- 1/21(1/2- 1/4) =1/24 

• P(4 UB) =1/6 +1/4- 1/24=3/8 

• P(A C ) = 1 - 1/6 = 5/6 

• P(B C ) =1-1/4 =3/4 

• P(A C n B c ) =1- P(A U B) =1-3/8 =5/8 
53. mjN” 

55. (a) P(A n (B n O) = P(A n B n C) = 

= P(A)P(B)P(C) = P(A )P(B n C) 

(b) P((A UB)DC)=P(A UB)+P(C)-P((AUB)UC) 
= P(A) + P(B) - P(A)P(B) + P(C) 

-[PU) + P(B) + P(C) - PU)P(B) - PM)P(C) 

- P(B)P(C) + P(4)P(B)P(C)1, de onde 
P((4 U B) n C) = PU)P(C) + P(B)P(C) 

- P(A )P(B)P(C) = PM U B)P(C) 

56. Não, pois P(A fl 8) í 5/12 e P(4 fl 8) = 0 para 
que A e B sejam mutuamente exclusivos. 

58. Note que V = (V D U c ) U (U n V) e U U V = 
= (V nU [ )uli. Tome probabilidades e a diferença 
entre elas. 

59. (a) P(4,.) = 1/2, i =1, 2, 3 e PM) =0. 

(b) P(A i n 4p = 1/4 =P(A j )P(A j ), 

mas P(/4 1 fl A 2 (1A 3 ) =0 * PMjIPM^PM,). 
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60. pUj n ... n a„) = p(a 1 )p(a 2 \a 1 ) ... p(a„ ia, n ... /\„_J 

62. p, onde 1 - p = (1 - 1/365)(1 - 2/365) ... (1 - (k - l)/365) é a probabilidade de todos os aniversários serem distintos. 

63. 1 - p » 1 - 2/365 - 3/365 - ... - (k - l)/365 - 1/365 + 2/365 2 + ... e desprezando termos com denominadores 
365 2 , 365 3 etc. obtemos o resultado. 

64. P(A |F) = 0,563, P(C |F) = 0,845. 


Capítulo 6 


X 

0 

1 

2 

3 

P(X = x) 

1/56 

15/56 

30/56 

10/56 


X 

1 

2 

3 

4 

P(X = x) 

0,50 

0,25 

0,125 

0,0625 ... 


De modo geral, 

P(X = x) = (l/2)(l/2)'- 1 =(1/2)', x = 1, 2, 3... 


5. No contexto apresentado, a distribuição do número 
de caras é dada por: 

P(Y =y) = ( y )p y d - p)4’ r y = 0,1, 2, 3,4. 


Gráfico para q = 0,4. 



1 7. E(T) =4,6; E(G) =2,75; Var(G) =0,4125 


7. Problema 1: E(X ) = 1,875, Var(X) =0,502. 
Problema 2: £(X) = 1,875, Var(X) =0,703. 


8. E(Y) =2,0, Var(y) = 

1,0 



10. X 

0 

1 

2 

3 

P(x) 

1/8 

3/8 

3/8 

1/8 


Y 

i 

2 

3 


p(y) 

1/4 

1/2 

1/4 



£(X) =1,5, E(Y) =2, Var(X) =0,75, Var(y ) =0,5 


1 1. E(V) = 1 - q, Var( 1/) =q(l- q) 

13. Y toma valores 0, 50.000,100.000, com probabilidades 
126/150, 23/150 e 1/150, respectivamente. 

E(Y) =8.333,33. 


20. 1) X — b(5,1/3); 2) não é binomial; ensaios não inde¬ 
pendentes; 3) X será binomial se a proporção de bo¬ 
las brancas for a mesma em todas as urnas; 4) X será 
binomial se a proporção de pessoas com opinião 
contrária for a mesma nas dez cidades; 5) X será 
binomial se a probabilidade de obter peça defeituo¬ 
sa for a mesma para todas as máquinas. 

22. (a) 0,2834 (c) 0,2792 

(b) 0,5925 

24. binomial: 0,3758; Poisson: 0,4060. 

26. O gráfico da distribuição deX, p(x), é 
0.30 
0.25 
0.20 
a 0.15 


15. A partir do problema 11, tem-se: 
[ 0 , V < 0 

F v M = T q, 0 =s 1 / < 1 

[ 1 , V 3 = 1 


0.10 - 
0.05 - 

• _____ • 

0 12 3 4 5 

x 
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O gráfico da f.d.a de X, F(x), é 

10 - , - 

0.8 - •-° 

2 0.6 - 

LL •-O 

0.4 - 

0.2 - .-o 

o.o - I 8-; _ i _ r 

0 2 4 6 

x 


29. duas flores 


31. (a) 0,656 
(b) 0,292 

(c) 0,049 

(d) 0,996 

32. 0,9418 


33. (a) 0,2013 
(b) 0,6242 

(c) 0,3222 

34. (a) 0,1428 

(c) 2 


(b) dois navios 


37. 

Vender por 

13,50 reais. 

39. 

6,48 



42. 

(a) 0,705 


(c) 0,933 


(b) 0,236 



44. 

(a) 1/3; 

(b) 7/8; 

(c) 1/2 10 

48. 

9 X IO 6 



50. 

P = 0,2 



53. 

A mediana 

é qualqi 

jer valor em (1, 

56. 

6.200 



57. 

Basta notar 

que Y = 

j se e somente 


j-ésima repetição e A ocorre (r - 1) vezes nas {k - 1) 
repetições anteriores. A probabilidade desse evento é 

p (i - 1 ) pr lqi '' = (' (• _ i) prqi ' r - i = A r + 1 , ... 


Capítulo 7 


1 . 

(b) e- 20 



30 

3. 

(o) 1/100 


(b) r 2 / 100 

31 

5. 

£(X) = 1/2, Var(X) 

= 1/24 


6. 

£(X) = 1, Var(X) = 

K ~ 

1 

33 

8. 

(a) (-7b 3 )/(Ò 3 + 8) 

(b) 

£(X) = -3/4, Var(X) = 3/80 

35 

10. 

(o) 0,375 

(c) 

245 kg 

37 


(b) 4.000 kg 



39 

1 1 . 

£ (X) = 1/2, Var(X) = 

1/4 


40 

13. 

(b)E(L) = (2/3) C 3 + 

(1/3) C 2 - C 2 

43 

15. 

(a) 0,933 

(b) 0,977 


(c) 0,683 

(d) a = 19,6 




45 

17. 

(a) 9413 


(b) ] 164,25; 175,75[ 


19. 

P(D > 45) = 0,31, 

P(D 

> 45) = 0,5; 



P(Dj >49) =0,121, P(D 2 

>49) =0,092 

49 

21 . 

0,033 



51 

23. 

0,1043 



53 

24. 

0,9986 



56 

26. 

g(y)=3/8(y + 0,6) 2 ,- 

2,6 

«yss-0,6;E(r) =-2,10 


28. 

(a) 2,47 (b) 0,338 

(c) 2,06 

58 


Notar que G(u) = P(0 U í ll| = u, 0 í 11 í 1. 

(a) 0,4 (c) 0,3 

(b) 0,2 (d) 0,2 

7,70 e 3, respectivamente. 

4,33; 5,54; 6,02 
9,34 

(a) 1/2 (e 3 - e) 

E (X) = a, Var(X) = 4a 2 /3 

foj F x (Vy) - F x (-Vy) (c) E(X 2 ) = 1/3 

fbj l/2Vy, 0<y<l (d)E(Y)=U3 

(a) Use integração por partes 

(b) idem 

(c) r(i) =1, r(i/2) =4n 
E(Y)= 1 

(a) exponencial 
£(X) = co, use y = 1 +X 2 . 

0(0,1) = 4,88, 0j = 7,32, 0 2 = 10, 0 3 = 12,68, 0(0,9) 
= 15,12 

(a) 0,051 (b) 0,101 
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Capítulo 8 


1. (a)Q. = {Cl. C6, RI. R6}, C = cara, 

R = coroa; (c) independentes; (d) 1/2, 1, 1/2, 0, 2/3, 
1/2 


\ X 

Y 

-1 

0 

1 

p ( y ) 

-1 

1/12 

0 

1/12 

1/6 

0 

1/6 

0 

1/6 

1/3 

1 

1/4 

0 

1/4 

1/2 

p(x) 

1/2 

0 

1/2 

1 


(b) médias: 0; 1/3; variâncias: 1; 5/9 


X\Y =0 

-i 

1 

p ( x |/ =o) 

0,5 

0,5 


-< 

II 

1—* 

-1 

0 

1 

p(y|X =1) 

1/6 

2/6 

3/6 


5. (a) 1/3,14/9 (b) a =±10, to = 30 


\ X 

Y N ' X n 

1 

2 

3 

4 

p ( y ) 

1 

1/16 

2/1 6 

2/1 6 

2/16 

7/1 6 

2 

0 

1/1 6 

2/1 6 

2/16 

5/1 6 

3 

0 

0 

1/16 

2/16 

3/1 6 

4 

0 

0 

0 

1/16 

1/16 

P(x) 

1/16 

3/1 6 

5/16 

7/16 

1 


21. Densidades coincidem com as marginais do pro¬ 
blema 19(a), pois X e Y são independentes. 

23. f x (x) = e x , x > 0; f y (y) = 3 • e 3y , y > 0; logo, indepen¬ 
dentes; densidades condicionais iguais às marginais. 

25. E(Y |x) = (6x + 16)/(3x + 6), 0 =s y «s 4; 

E(r |x = 3) = 34/15; 

E(X |y) = (6x + 16)/(3y + 6), 0 « x « 4; 

£(X |y = 2) =7/3 

27. f z (z) =(-2z 3 + 12z-8)/3, l<z<2 

29. f z (z) =2/(2 +z) 2 ,z>0 

30. E(Z) =0,Var(Z) =1/2 


X 

1 

2 

3 

P(x) 

0,2 

0,4 

0,4 

y 

0 

1 

2 

p(y) 

0,4 

0,2 

0,4 

x + y 

1 

2 

3 4 

p(x + y) 

0,2 

0,2 

0,4 0,2 

x- y 

0 

1 

2 

P(x - y) 

0,2 

0,4 

0,4 

x- y- 1 

-1 

0 

1 

p(x - y - 1) 

0,2 

0,4 

0,4 


(b) médias: 3,125; 1,875; 5; variâncias: 0,86; 0,86; 
2,5 

9. (a) 3,85; 4,94 (b) 3,78; 5,43 

11. Cov(X, Y ) = 0,12, p(X, Y) = 0,197 


34. 35% 

36. (a) 0,30; 1/6; dependentes (b) p =-0,512 

39. p(AX +B,CY +D) = p(AX,CY) = 

= (AC)A\AC\)p(X,Y)=p(X,Y),seA >0,C >0 


13. E(XY) =0 =E(X)E(Y), mas X e Y são dependentes, 
pois P (X =1,7 =1) =0 /= 1/4 x 1/4 

15. (a) independentes, covariância nula 
(b) médias: 1, 1/2, 3/2; 
variâncias: 1/2, 1/4, 3/4 


41. 6,17 

43. (b) E(aX +bY ) =ap 1 + bp 2 ;Var(aX +bY) = 
=a 2 cr 2 + b 2 cT 2 2 

45. e-*e y = f(x, y), Vx, y > 0 


16. 0,65 


47. E(X) =p,Var(X) = a 2 /n 


19. (a) f x (x) = e x , x > 0; f Y (y) = e y , y > 0 

(b) (1 - e-^fe 1 - e 2 ) 

(c) p =0, pois XeY são independentes. 
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Capítulo 9 


1. 18 mod 5 = 3, 360 mod 100 = 60. 

3. U- 0,13; 0,65; 0,25; 0,25; ...; h = 3 

4. u - 0,19; 0,47; 0,11; 0,43; ...; 0,87; h = 20. 

6. (Xj .x 5 ) = (1, 3, 2, 2, 2), se U,: 0,11; 0,82; 0,43; 

0,56; 0,60 

7. (Xj.x 10 ) = (5, 3, 4, 4, 4, 5, 4, 6, 5, 5), se U,: 0,57; 

0,19; 0,38; 0,33; 0,31; 0,54; 0,38; 0,79; 0,54; 0,55. 

8. Geramos o número aleatório U e X = (u - 1) 1B ; 
x =-0,793. 

9. Para U 0,419; 0,885; 0,111; 0,330; 0,036; 0,415; 0,188; 
0,061; 0,127; 0,791; obtemos 0,1, 0, 0, 0, 0, 0, 0, 0,1. 

1 0. Considere dez experimentos de Bernoulli, £,, ..., £ 10 ; 
em cada um deles, seja X ; ~ Ber(0,2). Por exemplo, 
se em E 3 geramos os NA Uf 0,11; 0,82; 0,00; 0,43; 
0,56; 0,60; 0,72; 0,42; 0,08; 0,53; então os valores 
de X 1 respectivos serão 0, 1, 0, 0, 0, 0, 0, 0, 0, 0 e 
portanto a v.a. binomial é Y = 0 + 1+ 0+ ... + 0=1, e 
assim por diante. 

1 1. Usando os u do problema 9, obteremos: Tf. 0,435; 
0,061; 1,099; 0,554; 1,662; 0,440; 0,836; 1,398; 1,032; 
0,117. 


12. (a) Usando os NA do problema 10 obtemos: 

Xj = 0,332; x 2 = 0,906; x 3 = 0,000; x 4 = 0,656; 
x 5 = 0,748; x 6 = 0,775; x, = 0,849; x 8 = 0,648; 
x 9 = 0,283; x 10 = 0,728. 

(b) Suponha U 1 =0,94; então I x = 0 _1 (L/ 1 ) = -1,56 e 
portanto x 2 = 10 + 2 z 1 = 13, 12, etc. 

(c) Para U 1 = 0,94, temos que t 3 = 1,711 etc. 

1 4. Com os valores z j gerados no problema 12 (b), calcule 
w = z\+z\ +z 3 2 etc. 

1 7. Para u 1 = 0,6 e u 2 = 0,09, calcule z 1 e z 2 dadas no 
método de Box-Müller, obtendo z 2 =0,562 ez 2 = 0,357. 
Repita. 

19. [1] Suponha gerado t/ 3 = 0,6; [2] r = 3/7 = 0,43, 
j = 0, pr = (0,7) 5 = 0,17, F = 0,17. [3] u 3 > F [4]pr = 
= (0,43)(5)(0,17) = 0,37, F = 0,17 + 0,37 = 0,54, j = 1; 
[5](Jj =0,6 <F, logo coloque x 2 = 1. Repita para u 2 ,..., 

U 5- 

26. Suponha os três primeiros valores gerados da Exp 
(1/2) do problema 11. Então o primeiro valor gerado 
de X ~ gama (3; 1/2) seria x 3 = 0,435 + 0,061 +1,099 = 
= 1,595. Continue. 


Capítulo 10 


(a) amostra não-aleatória; opinião de operário está 
relacionada com sua chegada 

3. (c) 0,375% 

(b) alturas são amostra aleatória 

4. <7 2 

0 

1 

4 

7 

(c) amostra viesada 

P(ô 2 ) 

7/25 

10/25 

6/25 

2/25 

(d) não há problemas se os supermercados forem, 
inicialmente, homogêneos quanto à venda de sa¬ 
bão em pó 

7. (o) 0,68 

(b) 1,00 

II 

c 

g 


9. (o) 7,51% (b) 84,13% 


P 

0 

1/8 

2/8 

3/8 

4/8 

5/8 

6/8 

7/8 

1 

P(P) 

0,168 

0,336 

0,294 

0,147 

0,046 

0,009 

0,001 

0+ 

0+ 


(b) Y ~ A/(1,6; 1,28) (c) razoável, pois n pequeno e p A 1/2 (d) p = 1/2 


13. (a) 0,5 


(b) zero 
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14. (o) p =12, Md =12, cr 2 =10,8 


X 

6 

7 

9 

10,5 

12 

13,5 

15 

16,5 

18 

P(x) 

0,01 

0,04 

0,12 

0,20 

0,26 

0,20 

0,12 

0,04 

0,01 


distribuição da mediana é igual à distribuição de x. 

(c) E(X ) = E (md) = 12 (d) Var(X) = Var(md) = 5,4; qualquer uma 


z 

-2,59 

-1,94 

-1,29 

-0,65 

0 

0,65 

1,29 

1,94 

2,59 

PU) 

0,01 

0,04 

0,12 

0,20 

0,26 

0,20 

0,12 

0,04 

0,01 


(f) E(Z) = 0, Var(Z) = 1 


(g) s 2 

0,0 

4,5 

18,0 

40,5 

72,0 


P(S 2 ) 

0,26 

0,40 

0,24 

0,08 

0,02 


(h) E (S 2 ) = 10,8, Var(S 2 ) 

= 204,12 





(0 t 

-3 

-1 

-0,3 

0 

0,3 

1 

3 

p(t) 

0,04 

0,24 

0,04 

0,10 

0,04 

0,24 

0,04 


Note que ^bp(t) < 1, pois S = 0, com probabilidade 0,26 e, nesses casos, não podemos definir t. 
(j) E(t) = 0, Var(t) = 1,2 (fc) P(|t|< 2) = 0,76, P(|t|< 4,3) = 0,74. 


17. n = 1.692 

1 9. Note que p(l - p) ^ 1/4, logo n ^ n g . 
21. (a) 0,02275 

(b) n = 20, probabilidade = 0,0216 

(c) n = 1, probabilidade = 0,31 


32. (a) Pelo TLC, X ~ N(ju v a 2 /n), Y ~ N(p v g 2 2 Iwí) 
(b) E(D) =ju 1 - p 2 , Var(D) = a 2 Jn + cr 2 lm 
(d) D ~ N p 2 - p 2 , a 2 Jn + a\lm 

34. 0,356 

35. p, - p 2 ~ N(p 2 - p 2 ; Pj(l - Pj)/n + p 2 (l - p 2 )/m) 


23. (a) 400/n (dj d = 5,16 

(b) 0,617 (e) n = 1.537 

(c) 0,317 

25. (aj 0,2644 (b) 0,16 


39. f H (m) =nm nl ie n , Osinsí 

41 . X 0 = 0, X 2 = 3, SÍ = 0, X 2 = 4, S\ = 2, 

X 3 = 3,333, S 3 2 = 2,347, X 4 = 3,998, S, 2 = 3,333, 
X 5 = 4, S 2 = 2,510. 


27. 0,06% 

29. (a) máx. =72,28 (ç) máx. =72, mín. =52 

(b) máx. =48, mín. =52 (d) 0,954 


42. E(f) = N E(X) = N n =N(TIN) =T, 
Var(f) =Al 2 Var(X) =N 2 (a 2 ln) 

43. Substitua S 2 em [3] porS 2 =X n (l- x n ). 


Capítulo 11 


P 

0,0 

0,2 

0,4 

0,6 

0,8 

1,0 

P(P) 

0,32768 

0,4096 

0,2048 

0,0512 

0,0064 

0,00032 


E(p) =0,2, Var(p) = 0,032. 

3. E(p 2 ) =E(p 2 ) =p, Var(Pj) = p(l - p)/n, Var(p 2 ) =p(l 
- P) 

4. Pj consistente, p 2 não-consistente 

6. (a) S(p) = 5p 2 - 76p + 390 
(b) (t = 7,6 


8- «mo = 7- 4o = 7)(y t - 7))/(SU t - x) 2 ) 

10. L (p) = p 3 (l - p) 2 ;L (1/5) =0,0512,1(2/5) = 0,02304, 
1 (3/5) = 0,03456,1 (4/5) = 0,02048 

13. Â MV = y 


12. P HV = x 
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14. y = 0,95 : ]167,06; 172,94[ 
y = 0,85 : ]161,81; 168,19[ 
y = 0,70 : ]177,92; 182,08[ 

16. fa; n = 385 (b)n= 666 

18. IC(p; 0,90) = ]0,67; 0,73[; conservador: ]0,667; 0,733[ 

20. (aj n = 3933 (b) ]0,535; 0,566[ 

21. (aj ]0,280; 0,386[ (b) n = 2133 ou n = 2401 

23. (aj ] 148,37; 151,63[ (bj n = 100 

25. X = 400; IC para salário médio: ]379,53; 420,47[ 

27. (aj ]0,553; 0,647[ 

(b) 2,7% 

(cj A amostra seria impraticável: n = 3.689.473 
29. ]0,471; 0,569[ 


30. 7 = 0,64 

34. P{\kln - p| & e} =S Var(/c/n)/e 2 =p(l - p)lne 2 . 

36. f, HV =X,Ô 2 „ v =Ô 2 = l(X r X) 2 ln. 

38. (aj V H (d) = -0l(n + 1) ->■ 0, n -> «> 

(b) EQM (T 2 ) = Var(T 2 ) = 9 2 ln(n + 2) 

(cj T 2 consistente 

41 . (aj ]4,941; 5,247[, amplitude L 3 = 0,306 
(b) ]4,944; 5,244[, amplitude 1 2 = 0,300 
(cj igual a (b), amplitude 1 3 = 0,300. 

Como n = 1.000, intervalos de (b) e (cj são iguais e 
L 2 =L 3 <L y 

43. ]10,19; 10,41[ 

45. X M = X ou X M = à 2 . 


Capítulo 12 


2. (aj a = 9,18% (cj RC = {x : x & 1171,43} 

(b) p = 6,68% 

4. a = 0,125, p = 0,7037 

5. (aj H 0 : p = 200, H x : p =210 

(bj RC = {X : X & 205}; a = p = 0,106 

7. H 0 : p = 60, : p < 60; RC = {x : X < 49,03}; não 

rejeitaria H 0 : não há evidências de melhoria. 

9. H 0 : p 5* 23, : p < 23; RC =(-»,-1, 28], z obs = 1,3, 

não rejeitamos H 0 . 

1 0. â = 0,11; logo, não rejeitamos H 0 : p =0,5. 

1 3. Como â =0,010, rejeitamos H 0 : p =1/4 e o programa 
deve ser modificado. 

16. â = 0,345. 

1 7. à =3,6%; logo, a técnica é melhor que a anterior. 

1 9. RC = {X 2 : X 2 =s 14,85 ou X 2 & 32}; X\ bs = 30,67; 
logo, a variância não mudou. 

21. (aj t = 1,833 
(bj 0,711 
(cj 0,422 


22. â = 0, donde rejeitamos H 0 : p = 100, x = 85 min. 

24. (aj IC(p; 0,95) = ]36,04; 47,03[ 

(b) (X - n) Vn/S ~ t(n - 1). 

26. RC = {x : x ^ 26,3 ou x ^ 33,7}; x = 50,4; rejeita- 
mos H 0 

IC = (p; 0,95) =]46,7; 54,1[ 

27. Z Qbs = 2,22; logo, rejeitamos H 0 : p = 11. 

30. (aj n » 35 

(bj RC = {X : X & 205,6} 

32. t obs = 4,75; logo, rejeitamos H 0 : p =7; 

IC = ]8,99; 12,611 

34. (aj n ~ 271 
(bj ]0,35; 0,45[. 

36. 2f 2 0bs = 19,2; logo, rejeitamos H 0 : a 2 = 25. 

38. (aj â = 0,055 

(bj bilateral = 0,11 

39. (aj â = 0,633 
(bj bilateral > 1 
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Capítulo 13 


1. (a)a = 4,77 (b) b = 0,95 

3. Aceitamos H 0 : = a]; logo, as duas fábricas são 

igualmente homogêneas. 

5. Aceitamos H 0 : = <7 2 2 e rejeitamos H 0 : p 1 = p 2 , logo, 

a população de homens e mulheres tem idades médias 
diferentes. Supomos populações normais. 

7. Aceitamos H 0 : = g\ e rejeitamos H 0 : p A = jt B ; 

f obs = - 2,133; logo, os dois tratamentos são diferentes; 
B é mais eficaz. 

9. Aceitamos H 0 : cjj = cr 2 2 e H 0 : /j 1 = p 2 , t obs = 0,63 

10. W s = 87, z obs =-1,36; aceitamos H 0 : p c = p T ; ã = 0,09 
(unilateral) 

12. (a) 0,8170; 0,8051 (c) 0,9996; 0,9924 

(b) 0,18; 0,16 

15. â =0,5 

1 7. l/ 0 bs = 2,37; logo, rejeitamos H 0 . 

1 8. i/ obs = 2,03; logo, rejeitamos H 0 . 

19. Supondo normalidade, t obs = -0,83; aceitamos 
H 0 : p D = 0; ã = 0,42. Usando Wilcoxon, z obs = -0,83, 
â = 0,41. 

25. Não rejeitamos H 0 : p D = /A, t obs = 0,65; a produção 
diurna é mais homogênea, mas a produtividade mé¬ 
dia é a mesma. 


28. foj IC(jU B - p A \ 0,95) =]0,06; 1,94[ 

(b) amostras de duas normais independentes, com 
variâncias desiguais desconhecidas. 

30. (a) Não rejeitamos H 0 : p = 7,6 e H 0 : p = 6,5; logo, 
as amostras servem para justificar as afirmações 
dos dois grupos. 

(b) Aceitamos H 0 : p 2 = p 2 , t obs = 1,33; logo, os salários 
médios dos dois grupos são iguais. 

32. H 0 : p D = 0, Hi: p D < 0; t obs =-2,09, 1 / =4 g.l., logo, 
aceitamos H 0 ; não há evidências de que a droga 
reduza a pressão; a variabilidade é muito grande. 

33. f obs = -2,42, v = 132 g.l. (usamos a normal!); rejeita¬ 
mos H 0 : ft A = p B . 

35. (a) IC(Pa - Pb', 0,90) = ]0,433; 0,567[; como o zero 
não pertence ao IC, rejeitamos a hipótese de igual¬ 
dade de opiniões nas duas cidades. 

(b) IC = 10,466; 0,534[ 

37. (o) t obs = -2,12, aceitamos H 0 : p A = p B , ã = 0,06 
(b) l/l/ s = 58, z obs = -1,66, aceitamos H 0 ; â = 0,05 

39. (a) t obs = 1,36, aceitamos H 0 : Pu = Pc versus 
Hj : Pn>Pc, â>10% 

(b) l/l/s = 121, z obs = 1,22, aceitamos H 0 , a = 11% 

41. P(l/l/s 3= 35) = P(l/l/s 3 33 +2) =P(l/l/s =£ 33 - 2) = 
= P (l/l/s =£ 31) 

43. t obs = 7,813, â «» 0, IC (p D ) 0,95) = ]0,829; 1,423[ 


Capítulo 14 


1 . ATobs = 8,96; logo, não rejeitamosH 0 , para o nível a = 0,05. 

3. ATobs =0,563; o valor tabelado, com 2 g.l., para o nível 
a = 0,01 é 11,34; logo, os dados estão de acordo 
com o modelo. 

5. 4,5 = 8 ,17; logo, o dado é balanceado. 

6. 4bs = 6,95; as duas populações são homogêneas, 
mesmo com a = 0,01; à = 0,078. 

8. As duas drogas são igualmente eficazes: qui-quadra- 
do observado é 1,34. 

10. 4s = 19,67; logo, a opinião depende do local. 

12. 4,5 = 33,63; portanto, a tendência de o aluno pros¬ 
seguir os estudos depende da classe social. 

1 3. 4bs = 4,04, e para o nível a = 0,05 rejeitamos a hipótese 
de que homens e mulheres têm a mesma fidelidade. 


15. T 0 bs = 2,37 e rejeitamos H 0 : p = 0; IC(p; 0,95) = 
= ]0,04; 0,873[. 

1 7. 4bs = 51,4; logo, o tipo de atividade está relaciona¬ 
do com o tipo de propriedade de embarcações. 

1 9. 4bs =101,75 e a = 0; logo, a preferência pelos sexos 
não é a mesma. 

21. r =0,87, ^bs = 4,24; logo, rejeitamos H„: p = 0; o inter¬ 
valo de confiança para p, com coeficiente de confian¬ 
ça 0,95, é 10,414; 0,975[. 

23. r = 0,41; 4 0 = 0,4356; a região crítica é RC = 
= {i; : 4 < 0,071}, no nível a = 0,05. Logo, a corre¬ 
lação entre os salários é menor que 0,6. 

24. H 0 : p(X, Y) = 0; H’ : p(X, Y ) = 0. Os valores 
amostrais são r(X, Y) = 0,949 e r(X, Y ) = 0,707. 
Portanto, rejeitamos as duas hipóteses. 

28. P(Xj = 5, X 2 = 2, X 3 = 3) = 0,064. 
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Capítulo 15 


2. Exemplo 15.2: fi = 3,16; â M = 0,22; â T = -0,93; 
à„ = 0,50 

Exemplo 15.3: fi = 10,70; â E = 1,63; â 2 = -2,67; 
à 3 = 1,03 

3. IC(/x; 0,95) = ]77,9; 89,8[; IC(a 2 ; 0,95) = ]100,1; 356,5[. 

4. F obs = 2,197; p-valor = 0,15; o tipo de escola não 
tem influência. 

5. F obs = 6,18; p-valor = 0,02; o período influencia. 

6. F obs = 92,2; p-valor ^ 0,001; há diferença de rendi¬ 
mentos entre as duas categorias. 

8. Não, pois F obs = 1,038 e p-valor = 0,37. 

9. (a) Sim, pois F obs = 487,23 e o valor tabelado de 

F(2,77), com a = 0,05, é 3,11. 

(b) 8,43 ± 0,36 

1 0. Não há evidências, pois F obs = 3,90 e o valortabelado 
de F(1,8), com a = 0,05, é 5,32. 


1 1 . Existe evidência de efeitos distintos, pois F obs =29,79 
e o p-valor 0,001. 

Bonferroni sugere p, = p n >jU ul = pí lv . 

1 2. Sim, F obs = 16,47, p-valor < 0,001. Bonferroni indica 

t J c=M B <M D =M A =M E 

13. Há evidências de que as médias são diferentes, pois 
F 0 bs = 6,05 e P" va l° r = 0,008. 

Bonferroni sugere jU 1 = p 2 </±. 

1 6. Rejeitamos a hipótese (F obs = 59,0; o valor tabelado = 
= 3,11). Por Bonferroni, teríamos </I E <p 6 . 

1 7. Não deve ser um único autor (F obs = 6,71, valortabe¬ 
lado = 3,03). Possibilidades sugeridas por Bonferroni: 
P 1 =7' 3 < ^ 7t 1 =7J 2 =^ 3 ;M 2 =l'4- 

22. M/C = 2,01, p-valor = 0,367; os grupos são homo- 
cedásticos. 

25. IP(Í 40 ; 0,95) = ]102,77; 131,731; IC(// 40 ; 0,95) = 
] 110,77; 123,731 


Capítulo 16 


1 . (a) z. = 101,50 - 0,55x ; 

(b) Sim, para o indivíduo 19. 

2. (a)}, = 6,87 - 0,26x,. 

3. fb; y, = 50,46 - 0,38x, (d) 132,4° 

5. (a) S 2 = 100; Sl = 88,75 (c) R 2 = 18,9% 

(b) Não (p-valor =8%) 

6. (b)9, =0,662 +0,539x,. 

(d) Sim; Sl = 1,023 eS 2 =22,013. 

(e) Sim, p-valor = 0,00%. 

10. (o) ]-1,18; 0,08[ 

(b) ]82,21; 120,79[ 

(ç) F obs =3,41, p-valor =0,08; logo, não rejeitamos 

P= o. 

16. (o) ]82,84; 100,32[ 

(b) ]80,59; 89,41[ 

(c) ]29,90; 93,10[ 

1 7. 16,832 ±0,876 


18. (0)17=32,12 - 2,52* 

(d) encontra-se sobre a reta 

(e) ]16,95; 22,09[ 

22. (a) y ; = 323,62 + 131,72x j; F obs = 13,68, valor tabe¬ 
lado F c = 3,07, rejeito H 0 : /? = 0 

(c) 982,2 ± 147,2 

(d) t obs = 0,16, t c = 1,753. Não há evidências para re¬ 
jeitar H 0 . 

25. y = 0,159 + l,228x; t obs = 4,85, t c =2,101. Rejeita-se H 0 . 
28. (b)y = 1,312 + l,958x; y = 25,710 - l,126z. 

(c) maior p-valor 

(d) 16,98 ± 1,89 

35. IC(or*=; 0,95) =]5,03; 5,51[, IC (/?; 0,95) =]0,24; 0,32[ 

36. IC(a; 0,95) =1153,40; 247,54Í 

37. (a) IC(p(28); 0,95) =1102,98; 108,431 
(b) IP(y(28); 0,95) =193,64; 117,761 

39. (a) y = 10 + 12x (c) 106,97 
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